Summary

RAG 시스템의 성능을 평가하는 방법론. 고전적 텍스트 기반 메트릭에서 의미 기반 평가로 진화하는 과정을 체계화.

RAG 시스템의 성능을 평가하는 방법론. 고전적 텍스트 기반 메트릭에서 의미 기반 평가로 진화하는 과정을 체계화.

평가 방식의 진화:

  1. 고전적 메트릭: BLEU, ROUGE (한계 명확)
  2. 의미 기반: BERTScore, 임베딩 유사도
  3. 종합 평가: LLM-as-Judge (다차원)

특징:

  • 단어 일치 초월
  • 의미론적 정확성
  • 유용성 평가
  • 종합 점수 제공

평가 차원:

  • 정확성 (Accuracy)
  • 관련성 (Relevance)
  • 완전성 (Completeness)
  • 명확성 (Clarity)

관련 개념: LLM-as-Judge, Semantic-Evaluation, RAG-Evaluation 채널: AI인터시스브랜드 영상: Video 13