PRAL Loop (Perception-Reasoning-Action-Learning)

정의

**PRAL Loop (인지-추론-행동-학습 루프)**는 자율 에이전트가 환경과 상호작용하며 목표를 달성하기 위해 반복하는 기본 사이클입니다.

기본 구조:

┌─────────────────────────────────────┐
│  P: Perception (인식/감지)          │
│  R: Reasoning (추론/분석)           │
│  A: Action (행동/실행)              │
│  L: Learning (학습/개선)            │
└─────────────────────────────────────┘

4단계 상세 설명

1. Perception (인식)

목적: "현재 상황을 이해한다"

활동:
  - 환경 센서/데이터 수집
  - 관련 정보 추출
  - 온톨로지로 상황 분류
  
예시 (의료):
  환자: "발열, 기침 있어요"
  센서: 온도 39°C, 호흡음 이상
  분류: "상기도감염 의심"
  
도구:
  - 데이터 수집 API
  - 온톨로지 분류 엔진
  - 전처리 로직

2. Reasoning (추론)

목적: "다음 행동을 결정한다"

활동:
  - 현재 상황과 목표 비교
  - 가능한 행동 선택지 생성
  - 각 선택의 예상 결과 평가
  - 최적 행동 결정
  
예시 (의료):
  상황: "상기도감염 의심"
  선택지:
    A. 독감 검사 우선 (확실함, 비용 높음)
    B. 감기 자가진단 (빠름, 확실성 낮음)
    C. 증상 추적 (저비용, 시간 소요)
  
  의사결정: A 선택 (발열이 높으므로)
  
도구:
  - LLM 기반 추론 엔진
  - 온톨로지 규칙 엔진
  - 가치 평가 함수

3. Action (행동)

목적: "결정을 실행한다"

활동:
  - 선택한 행동 실행
  - 도구/API 호출
  - 환경 변경
  - 결과 기록
  
예시 (의료):
  행동: "독감 검사 실행"
  구체:
    1. 검사 기계 예약
    2. 환자에게 안내
    3. 검사 수행
    4. 결과 수집
  
  결과: "독감 항체 양성"
  
도구:
  - 검사 실행 API
  - 결과 저장소
  - 로깅 시스템

4. Learning (학습)

목적: "경험에서 배운다"

활동:
  - 행동 결과 평가
  - 예측과 실제 비교
  - 지식 갱신
  - 다음 루프 전략 조정
  
예시 (의료):
  결과: "독감 양성" (예측 맞음 ✓)
  평가: "발열 > 38°C일 때 독감 검사 우선이 맞다"
  갱신: 온톨로지 규칙 신뢰도 ↑
  
  다음 루프 전략:
    - 유사 환자에는 독감 검사 우선
    - 비용 효율성 개선 가능성 탐색
  
도구:
  - 결과 평가 함수
  - 온톨로지 갱신 엔진
  - 성능 추적 시스템

PRAL Loop의 특징

반복성 (Iterative)

1차 루프: "발열 있음" → "독감 검사" → "양성" → "치료 시작"
2차 루프: "48시간 후 증상" → "약물 효과 재평가" → ...
3차 루프: (필요시 반복)

학습성 (Learning)

루프 1: 정확도 70%
루프 2: 정확도 75% (피드백 반영)
루프 3: 정확도 80% (누적 학습)
...
루프 N: 정확도 90%+ (완숙)

적응성 (Adaptive)

초기: "모든 상황에 동일한 프로토콜"
루프 반복: "환자 유형별로 다른 프로토콜"
최종: "개인맞춤 진단 프로토콜"

PRAL Loop의 신속성

빠른 루프 (분 단위):
  - Perception: 빠름 (센서 데이터)
  - Reasoning: 빠름 (간단한 규칙)
  - Action: 빠름 (즉시 실행 가능)
  - Learning: 제한적 (수동 검증 필요)
  
  예: 로봇 피드백, 자동 거래

중간 루프 (시간/일 단위):
  - Perception: 중간
  - Reasoning: 중간 (LLM 호출)
  - Action: 중간
  - Learning: 중간
  
  예: 고객 지원, 의료 진단

느린 루프 (주/월 단위):
  - Perception: 느림 (누적 데이터)
  - Reasoning: 느림 (깊은 분석)
  - Action: 느림 (신중한 실행)
  - Learning: 강력 (장기 학습)
  
  예: 정책 수립, 신약 개발

온톨로지와 PRAL Loop

각 단계에서 온톨로지의 역할:

P (Perception):
  온톨로지가 "상황을 어떻게 분류할 것인가?"를 정의
  
R (Reasoning):
  온톨로지가 "어떤 규칙을 적용할 것인가?"를 정의
  
A (Action):
  온톨로지가 "어떤 도구를 사용할 것인가?"를 정의
  
L (Learning):
  온톨로지가 "지식을 어떻게 갱신할 것인가?"를 정의

실패와 회복

PRAL Loop의 안정성:

루프 실패 원인:
  1. Perception 오류 (잘못된 상황 인식)
  2. Reasoning 오류 (나쁜 의사결정)
  3. Action 실패 (도구 오류)
  4. Learning 오류 (잘못된 갱신)

회복 메커니즘:
  - 피드백 감지 → 루프 반복
  - HITL (Human-In-The-Loop) → 사람 개입
  - Ejection → 불안정 상황에서 시스템 중단

JYP Garden

탐색기

PRAL Loop

PRAL Loop (Perception-Reasoning-Action-Learning)

정의

4단계 상세 설명

1. Perception (인식)

2. Reasoning (추론)

3. Action (행동)

4. Learning (학습)

PRAL Loop의 특징

반복성 (Iterative)

학습성 (Learning)

적응성 (Adaptive)

PRAL Loop의 신속성

온톨로지와 PRAL Loop

실패와 회복

관련 개념

그래프 뷰

목차

백링크