PRAL Loop (Perception-Reasoning-Action-Learning)
정의
**PRAL Loop (인지-추론-행동-학습 루프)**는 자율 에이전트가 환경과 상호작용하며 목표를 달성하기 위해 반복하는 기본 사이클입니다.
기본 구조:
┌─────────────────────────────────────┐
│ P: Perception (인식/감지) │
│ R: Reasoning (추론/분석) │
│ A: Action (행동/실행) │
│ L: Learning (학습/개선) │
└─────────────────────────────────────┘
4단계 상세 설명
1. Perception (인식)
목적: "현재 상황을 이해한다"
활동:
- 환경 센서/데이터 수집
- 관련 정보 추출
- 온톨로지로 상황 분류
예시 (의료):
환자: "발열, 기침 있어요"
센서: 온도 39°C, 호흡음 이상
분류: "상기도감염 의심"
도구:
- 데이터 수집 API
- 온톨로지 분류 엔진
- 전처리 로직
2. Reasoning (추론)
목적: "다음 행동을 결정한다"
활동:
- 현재 상황과 목표 비교
- 가능한 행동 선택지 생성
- 각 선택의 예상 결과 평가
- 최적 행동 결정
예시 (의료):
상황: "상기도감염 의심"
선택지:
A. 독감 검사 우선 (확실함, 비용 높음)
B. 감기 자가진단 (빠름, 확실성 낮음)
C. 증상 추적 (저비용, 시간 소요)
의사결정: A 선택 (발열이 높으므로)
도구:
- LLM 기반 추론 엔진
- 온톨로지 규칙 엔진
- 가치 평가 함수
3. Action (행동)
목적: "결정을 실행한다"
활동:
- 선택한 행동 실행
- 도구/API 호출
- 환경 변경
- 결과 기록
예시 (의료):
행동: "독감 검사 실행"
구체:
1. 검사 기계 예약
2. 환자에게 안내
3. 검사 수행
4. 결과 수집
결과: "독감 항체 양성"
도구:
- 검사 실행 API
- 결과 저장소
- 로깅 시스템
4. Learning (학습)
목적: "경험에서 배운다"
활동:
- 행동 결과 평가
- 예측과 실제 비교
- 지식 갱신
- 다음 루프 전략 조정
예시 (의료):
결과: "독감 양성" (예측 맞음 ✓)
평가: "발열 > 38°C일 때 독감 검사 우선이 맞다"
갱신: 온톨로지 규칙 신뢰도 ↑
다음 루프 전략:
- 유사 환자에는 독감 검사 우선
- 비용 효율성 개선 가능성 탐색
도구:
- 결과 평가 함수
- 온톨로지 갱신 엔진
- 성능 추적 시스템
PRAL Loop의 특징
반복성 (Iterative)
1차 루프: "발열 있음" → "독감 검사" → "양성" → "치료 시작"
2차 루프: "48시간 후 증상" → "약물 효과 재평가" → ...
3차 루프: (필요시 반복)
학습성 (Learning)
루프 1: 정확도 70%
루프 2: 정확도 75% (피드백 반영)
루프 3: 정확도 80% (누적 학습)
...
루프 N: 정확도 90%+ (완숙)
적응성 (Adaptive)
초기: "모든 상황에 동일한 프로토콜"
루프 반복: "환자 유형별로 다른 프로토콜"
최종: "개인맞춤 진단 프로토콜"
PRAL Loop의 신속성
빠른 루프 (분 단위):
- Perception: 빠름 (센서 데이터)
- Reasoning: 빠름 (간단한 규칙)
- Action: 빠름 (즉시 실행 가능)
- Learning: 제한적 (수동 검증 필요)
예: 로봇 피드백, 자동 거래
중간 루프 (시간/일 단위):
- Perception: 중간
- Reasoning: 중간 (LLM 호출)
- Action: 중간
- Learning: 중간
예: 고객 지원, 의료 진단
느린 루프 (주/월 단위):
- Perception: 느림 (누적 데이터)
- Reasoning: 느림 (깊은 분석)
- Action: 느림 (신중한 실행)
- Learning: 강력 (장기 학습)
예: 정책 수립, 신약 개발
온톨로지와 PRAL Loop
각 단계에서 온톨로지의 역할:
P (Perception):
온톨로지가 "상황을 어떻게 분류할 것인가?"를 정의
R (Reasoning):
온톨로지가 "어떤 규칙을 적용할 것인가?"를 정의
A (Action):
온톨로지가 "어떤 도구를 사용할 것인가?"를 정의
L (Learning):
온톨로지가 "지식을 어떻게 갱신할 것인가?"를 정의
실패와 회복
PRAL Loop의 안정성:
루프 실패 원인:
1. Perception 오류 (잘못된 상황 인식)
2. Reasoning 오류 (나쁜 의사결정)
3. Action 실패 (도구 오류)
4. Learning 오류 (잘못된 갱신)
회복 메커니즘:
- 피드백 감지 → 루프 반복
- HITL (Human-In-The-Loop) → 사람 개입
- Ejection → 불안정 상황에서 시스템 중단
관련 개념
- Autonomous Agent — PRAL을 실행하는 에이전트
- Agent Architecture — PRAL의 구현 구조
- Decision Making — PRAL의 R(추론) 단계
- Ontology — PRAL의 지식 기반
관련 영상: Fundamentals of Building Autonomous LLM Agents (Video 4)