Definition

고전적 평가 지표(Classical Metrics)는 단어 단위 또는 구조 단위의 정확한 일치를 기준으로 AI 시스템 답변을 평가하는 옛날 방식이다. RAG-Evaluation의 구식 접근법.

Main Types

1. BLEU Score

특징:
├─ 원본과 정확히 같은 단어, 표현 요구
├─ 토시 하나 안 틀리고 일치해야 함
├─ 매우 엄격함 (깐깐한 선생님 같음)
└─ 번역 평가에서 원래 사용됨

한계:
├─ "그녀가 사과를 먹었다"
├─ "한 여성이 그 과일을 섭취했다"
├─ 결과: 0점 (의미 동일하지만)
└─ 의미 무시

2. ROUGE Score

특징:
├─ BLEU보다 좀 더 유연함
├─ 공통된 구조나 단어 찾음
├─ 약간의 변동 허용
└─ 여전히 형태 기반

한계:
├─ 본질은 여전히 "단어 맞추기"
├─ 의미 이해 없음
└─ 정교한 평가 불가

The Fundamental Problem

"완벽한 답변이 영점을 받는다"

이유:
├─ 의미와 표현을 구분하지 못함
├─ 글자 형태만 비교
├─ 의미적 동등성 인식 불가
└─ 실제 성능과 괴리

Why They Fail

Missing Nuance

Good Answer expressed differently:
├─ 의미: 완벽 ✅
├─ 표현: 다름 ✅
└─ BLEU Score: 0 ❌

No Semantic Understanding

Classical Metrics = Word Matching Game
└─ 언어의 유연성, 동의어, 다양한 표현 무시

Historical Context

원래 목적: 기계 번역 평가 (작동했으나, RAG/LLM 평가에는 부적절)

Why Still Used?

  • 빠른 계산 (LLM 호출 불필요)
  • 완전 자동화 가능
  • 역사적 기준과의 비교

Better Alternatives

BERTScore, LLM-as-Judge

References