PRAL Loop (Perception-Reasoning-Action-Learning)

정의

**PRAL Loop (인지-추론-행동-학습 루프)**는 자율 에이전트가 환경과 상호작용하며 목표를 달성하기 위해 반복하는 기본 사이클입니다.

기본 구조:

┌─────────────────────────────────────┐
│  P: Perception (인식/감지)          │
│  R: Reasoning (추론/분석)           │
│  A: Action (행동/실행)              │
│  L: Learning (학습/개선)            │
└─────────────────────────────────────┘

4단계 상세 설명

1. Perception (인식)

목적: "현재 상황을 이해한다"

활동:
  - 환경 센서/데이터 수집
  - 관련 정보 추출
  - 온톨로지로 상황 분류
  
예시 (의료):
  환자: "발열, 기침 있어요"
  센서: 온도 39°C, 호흡음 이상
  분류: "상기도감염 의심"
  
도구:
  - 데이터 수집 API
  - 온톨로지 분류 엔진
  - 전처리 로직

2. Reasoning (추론)

목적: "다음 행동을 결정한다"

활동:
  - 현재 상황과 목표 비교
  - 가능한 행동 선택지 생성
  - 각 선택의 예상 결과 평가
  - 최적 행동 결정
  
예시 (의료):
  상황: "상기도감염 의심"
  선택지:
    A. 독감 검사 우선 (확실함, 비용 높음)
    B. 감기 자가진단 (빠름, 확실성 낮음)
    C. 증상 추적 (저비용, 시간 소요)
  
  의사결정: A 선택 (발열이 높으므로)
  
도구:
  - LLM 기반 추론 엔진
  - 온톨로지 규칙 엔진
  - 가치 평가 함수

3. Action (행동)

목적: "결정을 실행한다"

활동:
  - 선택한 행동 실행
  - 도구/API 호출
  - 환경 변경
  - 결과 기록
  
예시 (의료):
  행동: "독감 검사 실행"
  구체:
    1. 검사 기계 예약
    2. 환자에게 안내
    3. 검사 수행
    4. 결과 수집
  
  결과: "독감 항체 양성"
  
도구:
  - 검사 실행 API
  - 결과 저장소
  - 로깅 시스템

4. Learning (학습)

목적: "경험에서 배운다"

활동:
  - 행동 결과 평가
  - 예측과 실제 비교
  - 지식 갱신
  - 다음 루프 전략 조정
  
예시 (의료):
  결과: "독감 양성" (예측 맞음 ✓)
  평가: "발열 > 38°C일 때 독감 검사 우선이 맞다"
  갱신: 온톨로지 규칙 신뢰도 ↑
  
  다음 루프 전략:
    - 유사 환자에는 독감 검사 우선
    - 비용 효율성 개선 가능성 탐색
  
도구:
  - 결과 평가 함수
  - 온톨로지 갱신 엔진
  - 성능 추적 시스템

PRAL Loop의 특징

반복성 (Iterative)

1차 루프: "발열 있음" → "독감 검사" → "양성" → "치료 시작"
2차 루프: "48시간 후 증상" → "약물 효과 재평가" → ...
3차 루프: (필요시 반복)

학습성 (Learning)

루프 1: 정확도 70%
루프 2: 정확도 75% (피드백 반영)
루프 3: 정확도 80% (누적 학습)
...
루프 N: 정확도 90%+ (완숙)

적응성 (Adaptive)

초기: "모든 상황에 동일한 프로토콜"
루프 반복: "환자 유형별로 다른 프로토콜"
최종: "개인맞춤 진단 프로토콜"

PRAL Loop의 신속성

빠른 루프 (분 단위):
  - Perception: 빠름 (센서 데이터)
  - Reasoning: 빠름 (간단한 규칙)
  - Action: 빠름 (즉시 실행 가능)
  - Learning: 제한적 (수동 검증 필요)
  
  예: 로봇 피드백, 자동 거래

중간 루프 (시간/일 단위):
  - Perception: 중간
  - Reasoning: 중간 (LLM 호출)
  - Action: 중간
  - Learning: 중간
  
  예: 고객 지원, 의료 진단

느린 루프 (주/월 단위):
  - Perception: 느림 (누적 데이터)
  - Reasoning: 느림 (깊은 분석)
  - Action: 느림 (신중한 실행)
  - Learning: 강력 (장기 학습)
  
  예: 정책 수립, 신약 개발

온톨로지와 PRAL Loop

각 단계에서 온톨로지의 역할:

P (Perception):
  온톨로지가 "상황을 어떻게 분류할 것인가?"를 정의
  
R (Reasoning):
  온톨로지가 "어떤 규칙을 적용할 것인가?"를 정의
  
A (Action):
  온톨로지가 "어떤 도구를 사용할 것인가?"를 정의
  
L (Learning):
  온톨로지가 "지식을 어떻게 갱신할 것인가?"를 정의

실패와 회복

PRAL Loop의 안정성:

루프 실패 원인:
  1. Perception 오류 (잘못된 상황 인식)
  2. Reasoning 오류 (나쁜 의사결정)
  3. Action 실패 (도구 오류)
  4. Learning 오류 (잘못된 갱신)

회복 메커니즘:
  - 피드백 감지 → 루프 반복
  - HITL (Human-In-The-Loop) → 사람 개입
  - Ejection → 불안정 상황에서 시스템 중단

관련 개념


관련 영상: Fundamentals of Building Autonomous LLM Agents (Video 4)