Definition

BERTScore는 고급 임베딩 모델(BERT)을 활용하여 두 문장의 의미적 유사도를 측정하는 평가 지표이다. 글자 단위 일치가 아닌 의미적 유사성에 초점을 맞춘다.

How It Works

Traditional Metrics:
"그녀가 사과를 먹었다" vs "한 여성이 그 과일을 섭취했다"
├─ Word match: 0/5 words match
└─ Result: BLEU = 0, but semantically identical

BERTScore:
"그녀가 사과를 먹었다" vs "한 여성이 그 과일을 섭취했다"
├─ Embedding comparison: "그녀"~"여성" (similar), "사과"~"과일" (similar), "먹었다"~"섭취했다" (similar)
├─ Semantic alignment: 전체 의미 일치
└─ Result: Score ≈ 1.0 (nearly perfect) ✅

Key Advantages

  • Semantic Understanding: 단어 형태 아닌 의미 이해
  • Paraphrase Recognition: 다른 표현의 같은 의미 인식
  • Nuanced Evaluation: 미묘한 의미 차이 포착

Limitations

  • Classical metrics보다는 나음, 하지만 여전히:
    • 진정한 이해 vs 통계적 유사도
    • 특정 도메인에서 편차 가능

References