Definition
의미적 평가(Semantic Evaluation)는 AI 시스템의 답변을 단어 형태가 아닌 의미와 문맥 기반으로 평가하는 현대적 방식이다. RAG-Evaluation의 진화된 접근법.
Core Principle
"글자가 아닌 의미를 본다"
Classical:
"그녀가 사과를 먹었다" ≠ "한 여성이 과일을 섭취했다" (0점)
Semantic:
"그녀가 사과를 먹었다" ≈ "한 여성이 과일을 섭취했다" (100점)
Methods
1. BERTScore (임베딩 기반)
원리: BERT 임베딩 모델로 의미 유사도 계산
특징: "사과" ≈ "과일" 인식 가능
장점: 빠르고 정확함
2. LLM-as-Judge (의미 판단자)
원리: 고급 LLM을 심판으로 사용
특징: 4가지 차원의 종합 평가
장점: 가장 정교하고 신뢰도 높음
Why It Matters
Problem It Solves
Classical metrics의 근본 문제:
└─ 의미는 같은데 표현 다르면 0점
Semantic evaluation:
└─ 의미가 같으면 100점 (정확한 평가)
Practical Impact
RAG System Improvement:
├─ Before: "이 시스템이 좋나?" → 불분명
├─ After: "이 시스템이 좋나?" → 명확 (4가지 기준 분석)
└─ 신뢰할 수 있는 개선이 가능해짐
The Evaluation Journey
Evolution of RAG Evaluation:
1. Word Counting Era
└─ BLEU, ROUGE (단어 수 기반)
└─ 문제: 의미 무시
2. Embedding Era
└─ BERTScore (의미 유사도)
└─ 진전: 의미 이해하기 시작
3. LLM Judge Era (현재)
└─ [[wiki/concepts/LLM-as-Judge]] (의미 판단)
└─ 완성: 인간 같은 이해
Quality Dimensions Evaluated
4 Key Aspects
- Relevance: 질문과 관련성
- Faithfulness: 원문 기반 여부
- Usefulness: 사용자 도움 여부
- Accuracy: 정확성
References
- RAG-Evaluation — 평가 방식 총론
- BERTScore — 임베딩 기반 구현
- LLM-as-Judge — 최고 수준 구현
- Classical-Metrics — 이전 세대 방식