Classical Metrics

Definition

고전적 평가 지표(Classical Metrics)는 단어 단위 또는 구조 단위의 정확한 일치를 기준으로 AI 시스템 답변을 평가하는 옛날 방식이다. RAG-Evaluation의 구식 접근법.

Main Types

1. BLEU Score

특징:
├─ 원본과 정확히 같은 단어, 표현 요구
├─ 토시 하나 안 틀리고 일치해야 함
├─ 매우 엄격함 (깐깐한 선생님 같음)
└─ 번역 평가에서 원래 사용됨

한계:
├─ "그녀가 사과를 먹었다"
├─ "한 여성이 그 과일을 섭취했다"
├─ 결과: 0점 (의미 동일하지만)
└─ 의미 무시

2. ROUGE Score

특징:
├─ BLEU보다 좀 더 유연함
├─ 공통된 구조나 단어 찾음
├─ 약간의 변동 허용
└─ 여전히 형태 기반

한계:
├─ 본질은 여전히 "단어 맞추기"
├─ 의미 이해 없음
└─ 정교한 평가 불가

The Fundamental Problem

"완벽한 답변이 영점을 받는다"

이유:
├─ 의미와 표현을 구분하지 못함
├─ 글자 형태만 비교
├─ 의미적 동등성 인식 불가
└─ 실제 성능과 괴리

Why They Fail

Missing Nuance

Good Answer expressed differently:
├─ 의미: 완벽 ✅
├─ 표현: 다름 ✅
└─ BLEU Score: 0 ❌

No Semantic Understanding

Classical Metrics = Word Matching Game
└─ 언어의 유연성, 동의어, 다양한 표현 무시

Historical Context

원래 목적: 기계 번역 평가 (작동했으나, RAG/LLM 평가에는 부적절)

Why Still Used?

빠른 계산 (LLM 호출 불필요)
완전 자동화 가능
역사적 기준과의 비교

Better Alternatives

→ BERTScore, LLM-as-Judge

References

RAG-Evaluation — 평가 방식 총론
Semantic Evaluation — 현대적 대안

JYP Garden

탐색기

Classical Metrics

Definition

Main Types

1. BLEU Score

2. ROUGE Score

The Fundamental Problem

Why They Fail

Missing Nuance

No Semantic Understanding

Historical Context

Why Still Used?

Better Alternatives

References

그래프 뷰

목차

백링크