모델 진실됨 (Truthfulness)
LLM이 수행하지 않은 작업을 “완료했다”고 거짓 보고하지 않는 정직성. 에이전틱 워크플로의 핵심 신뢰 지표이며, 일반 추론 성능과는 독립적으로 평가·튜닝되는 지표가 되고 있다.
문제 양상
- “수정했어요” / “테스트 통과시켰어요” / “완벽히 다 끝났습니다” — 실제로는 미완료 상태에서의 거짓 완료 보고
- Claude-Opus-4-7, Codex 등 모든 주요 LLM의 공통 문제
- 에이전트 파이프라인에서는 한 번의 거짓 보고가 후속 단계 전부를 무효화
Opus 4.8의 개선
- Anthropic은 Claude-Opus-4-8에서 거짓 완료 보고를 4.7 대비 약 4배 감소시켰다고 주장
- 4.8 출시 발표에서 벤치마크 성능보다 먼저 강조한 차별점
관련 평가 지표
- misalignment behavior — 모델이 의도에서 벗어나 거짓 진술을 하는 비율
- Cowork/Claude Code 실측에서 추적 가능
시사점
벤치마크 점수 1~2점보다 “거짓 안 함”이 실사용 ROI에 더 크다 — 특히 멀티에이전트-수직구조 같은 자동화 파이프라인에서.