Ragas

Summary

LLM 애플리케이션 평가 프레임워크. RAG, 에이전트, 일반 LLM 시스템의 성능을 객관적 메트릭으로 측정.

LLM 애플리케이션 평가 프레임워크. RAG, 에이전트, 일반 LLM 시스템의 성능을 객관적 메트릭으로 측정.

개요

Ragas는 “Vibe check에서 data-driven으로”라는 철학으로 설계되었다. LLM 출력의 자유형식 텍스트를 평가하는 것은 어렵지만, Ragas는 LLM 자신을 평가자로 활용해 이를 체계화한다.

주요 특징

Pre-built Metrics: Faithfulness(정확성), Answer Relevancy(관련성), Context Recall(검색 완전성), Context Precision(검색 정확도) 등
Customizable: 도메인 특화 메트릭을 간단한 데코레이터로 정의 가능
Framework Integration: LangChain, LlamaIndex 직접 지원
Experiments-First: 수정 → 평가 → 분석 사이클 강조

주요 사실

라이선스: MIT (오픈소스)
GitHub: ⭐ 7k+ (2026-04 기준)
지원 언어: Python
평가 대상: RAG, Agent, SQL Query, General LLM

평가 메트릭 타입

메트릭	대상	의미
Faithfulness	Generation	답변이 검색 문서의 내용과 일치하는가? (환각 탐지)
Answer Relevancy	Generation	답변이 질문에 직접 응답하는가?
Context Recall	Retrieval	검색된 문서가 모든 필요한 정보를 포함하는가?
Context Precision	Retrieval	검색된 문서가 모두 질문과 관련 있는가? (노이즈 제거)

관련 개념

llmops-lifecycle-and-stack — LLMOps 파이프라인의 평가 단계에서 Ragas의 역할
rag — RAG 평가를 Ragas 메트릭으로 자동화
agentic-ai-patterns — 에이전트 행동 평가 (Tool Accuracy, Reasoning Quality)

관련 엔티티

langchain — Ragas와 LangChain 통합 예제
llamaindex — LlamaIndex RAG 평가

소스

ragas-evaluation-framework