Ragas
Summary
LLM 애플리케이션 평가 프레임워크. RAG, 에이전트, 일반 LLM 시스템의 성능을 객관적 메트릭으로 측정.
LLM 애플리케이션 평가 프레임워크. RAG, 에이전트, 일반 LLM 시스템의 성능을 객관적 메트릭으로 측정.
개요
Ragas는 “Vibe check에서 data-driven으로”라는 철학으로 설계되었다. LLM 출력의 자유형식 텍스트를 평가하는 것은 어렵지만, Ragas는 LLM 자신을 평가자로 활용해 이를 체계화한다.
주요 특징
- Pre-built Metrics: Faithfulness(정확성), Answer Relevancy(관련성), Context Recall(검색 완전성), Context Precision(검색 정확도) 등
- Customizable: 도메인 특화 메트릭을 간단한 데코레이터로 정의 가능
- Framework Integration: LangChain, LlamaIndex 직접 지원
- Experiments-First: 수정 → 평가 → 분석 사이클 강조
주요 사실
- 라이선스: MIT (오픈소스)
- GitHub: ⭐ 7k+ (2026-04 기준)
- 지원 언어: Python
- 평가 대상: RAG, Agent, SQL Query, General LLM
평가 메트릭 타입
| 메트릭 | 대상 | 의미 |
|---|---|---|
| Faithfulness | Generation | 답변이 검색 문서의 내용과 일치하는가? (환각 탐지) |
| Answer Relevancy | Generation | 답변이 질문에 직접 응답하는가? |
| Context Recall | Retrieval | 검색된 문서가 모든 필요한 정보를 포함하는가? |
| Context Precision | Retrieval | 검색된 문서가 모두 질문과 관련 있는가? (노이즈 제거) |
관련 개념
- llmops-lifecycle-and-stack — LLMOps 파이프라인의 평가 단계에서 Ragas의 역할
- rag — RAG 평가를 Ragas 메트릭으로 자동화
- agentic-ai-patterns — 에이전트 행동 평가 (Tool Accuracy, Reasoning Quality)
관련 엔티티
- langchain — Ragas와 LangChain 통합 예제
- llamaindex — LlamaIndex RAG 평가