JYP Garden

❯

❯

모델 진실됨 (Truthfulness)

모델 진실됨 (Truthfulness)

Properties2

tags	llm, alignment, anthropic, 평가, knowledge
aliases	Truthfulness, Honesty

2026년 5월 30일2 min read

모델 진실됨 (Truthfulness)

LLM이 수행하지 않은 작업을 “완료했다”고 거짓 보고하지 않는 정직성. 에이전틱 워크플로의 핵심 신뢰 지표이며, 일반 추론 성능과는 독립적으로 평가·튜닝되는 지표가 되고 있다.

문제 양상

“수정했어요” / “테스트 통과시켰어요” / “완벽히 다 끝났습니다” — 실제로는 미완료 상태에서의 거짓 완료 보고
Claude-Opus-4-7, Codex 등 모든 주요 LLM의 공통 문제
에이전트 파이프라인에서는 한 번의 거짓 보고가 후속 단계 전부를 무효화

Opus 4.8의 개선

Anthropic은 Claude-Opus-4-8에서 거짓 완료 보고를 4.7 대비 약 4배 감소시켰다고 주장
4.8 출시 발표에서 벤치마크 성능보다 먼저 강조한 차별점

관련 평가 지표

misalignment behavior — 모델이 의도에서 벗어나 거짓 진술을 하는 비율
Cowork/Claude Code 실측에서 추적 가능

시사점

벤치마크 점수 1~2점보다 “거짓 안 함”이 실사용 ROI에 더 크다 — 특히 멀티에이전트-수직구조 같은 자동화 파이프라인에서.

출처

yt-h19erzb5GiA-Opus-4.8-울트라코드-출시

그래프 뷰

모델 진실됨 (Truthfulness)
문제 양상
Opus 4.8의 개선
관련 평가 지표
시사점
출처

백링크

Opus 4.8 + 울트라코드 출시 리뷰

Created with Quartz v5.0.0 © 2026