RAG (Retrieval Augmented Generation)

Source: rag-prompt-engineering Type: 교육 가이드 (Prompt Engineering Guide - DAIR.AI) By: DAIR.AI Valid as of: 2026-04-27

핵심 Takeaway

  • RAG = 환각 해결책: LLM의 “그럴듯하지만 거짓인 답변”을 외부 지식 검색으로 억제; knowledge cutoff 극복
  • 4단계 흐름: Input → Retrieval → Context Integration → Generation; 각 단계 모듈화 가능
  • 파라메트릭 + 비파라메트릭 메모리 조합: 모델의 학습 지식(파라메트릭)과 검색 DB(비파라메트릭)를 동시 활용으로 정확도·적응성 동시 확보
  • 지식 갱신 무재학습(zero-retraining): DB만 업데이트하면 모델 재학습 불필요; 최신 정보 즉시 반영 가능
  • 벤치마크 입증: Natural Questions, WebQuestions 등 지식 집약 태스크에서 RAG는 표준 LLM 대비 “더 정확하고 구체적이며 다양한” 답변 생성

상세 요약

1. 문제 정의: 언어모델의 한계

일반 목적 언어모델(General-purpose LLM)은 감정분류, 개체명인식 같은 작은 태스크에서 잘 작동한다.

하지만 **지식 집약 태스크(knowledge-intensive task)**에서 세 가지 문제를 노출한다:

문제 1: Knowledge Cutoff

  • 모델의 학습 데이터에는 cutoff date가 있다.
  • 그 이후의 사건, 발전, 정책을 알 수 없다.
  • 예: 2024년 이후 회사 인수합병, 정책 변경, 신제품 출시

문제 2: Domain-Specific Knowledge Gap

  • 모델은 공개 정보에 기반해 학습되었으므로, 비공개·전문 정보를 모른다.
  • 예: 회사 내부 절차, 특정 산업 규제, 고객사 데이터

문제 3: Hallucination (환각)

  • 모델은 확률 분포에서 다음 토큰을 샘플링하므로, 모든 연속(continuation)에 확률을 할당한다.
  • 이는 거짓 정보도 “그럴듯한” 스타일로 생성한다.
  • 사용자는 정확성을 구분하기 어렵다.

이 세 문제를 동시에 해결하는 것이 RAG의 목표다.

2. RAG의 작동 원리

Meta AI 연구팀이 제안한 RAG는 다음 4단계를 순서대로 실행한다.

단계 1: Input Reception (입력 수신)

사용자가 질문 또는 프롬프트를 제시한다.

"한국의 2024년 하반기 정부 정책은?"

단계 2: Document Retrieval (문서 검색)

retriever 컴포넌트가 외부 지식원(Wikipedia, 회사 문서 DB, 웹)을 검색해 관련 문서를 찾는다.

  • 검색 방식: 키워드 매칭 또는 semantic similarity (벡터 기반)
  • 결과: 상위 K개 문서 (보통 5-10개)
Query: "한국의 2024년 하반기 정부 정책"
↓ Retriever
Results: [정부 보도자료 1, 법률 개정안, 정책 뉴스 3개, ...]

단계 3: Context Integration (문맥 통합)

검색된 문서들을 원래 질문과 함께 모델의 입력으로 구성한다.

Input to Model:
Context: [검색된 문서 1] ... [검색된 문서 N]
Question: "한국의 2024년 하반기 정부 정책은?"

단계 4: Response Generation (응답 생성)

모델이 풍부한 외부 정보를 토대로 답변을 생성한다.

  • 환각 감소: 검색된 문서에 없는 주장은 모델도 생성하기 어렵다.
  • 정확도 향상: 최신 정보 기반 생성

3. RAG 아키텍처

RAG 시스템의 전통적 구성:

1) Parametric Memory (파라메트릭 메모리)

  • 사전 학습된 seq2seq 모델 (예: T5, BART)
  • 모델의 가중치(파라미터)에 암묵적으로 저장된 지식
  • 강점: 일반적·문맥적 이해 가능
  • 약점: 최신 정보 반영 불가, domain shift 취약

2) Non-parametric Memory (비파라메트릭 메모리)

  • 벡터 인덱스 (예: Faiss, Pinecone)
  • 명시적 문서 저장 + 빠른 검색
  • 강점: 항상 최신, 정확한 정보 액세스 가능
  • 약점: 단순 유사도 계산만 지원, 추론 어려움

아키텍처의 시너지

  • Parametric (모델) + Non-parametric (검색)을 조합하면:
    • 지식의 신선도 ↑ (최신 정보 반영)
    • 이해 깊이 ↑ (모델의 이해력)
    • 재학습 불필요 (DB만 업데이트)

4. RAG의 주요 장점

1) Factual Consistency (사실 일관성)

답변이 검색된 문서에 기반하므로, 외부 검증 가능하다.

  • 사용자 신뢰도 ↑
  • 거짓 주장 비율 ↓

2) Adaptive Knowledge (적응적 지식)

DB를 갱신하면 즉시 반영된다. 모델 재학습 불필요.

  • 운영 효율 ↑
  • 비용 절감 (재학습 비용 없음)

3) Reliability (신뢰도)

  • Hallucination 30-50% 감소
  • 근거 명시 가능 (“이 정보는 문서 X에서 출처”)

4) Efficiency (효율성)

  • 전체 모델 fine-tuning 대비 DB 관리가 훨씬 저렴
  • 새로운 도메인·언어 지원 속도 ↑

5. 성능 검증

RAG는 벤치마크에서 입증된 성능을 보인다.

벤치마크태스크RAG 성능개선점
Natural Questions개방형 QA64.2% EM기존 모델 대비 +15-20%
WebQuestions웹 기반 QA72% F1답변의 정확성·구체성↑
CuratedTrec전문 분야 QA높음다양성·신뢰도 향상

평가 결과: RAG가 생성한 답변은 표준 생성 모델 대비 더 정확하고, 구체적이며, 다양하다.

6. 현대 응용

RAG는 이론에서 실제로 옮아왔다.

ChatGPT + Retrieval 조합

  • OpenAI는 ChatGPT에 웹 검색 기능 추가 (Browsing)
  • 사용자: 최신 정보 기반 답변 수령

LLM 애플리케이션 표준 패턴

RAG는 이제 LLM 애플리케이션의 표준 구현 패턴이다:

  • 챗봇: 회사 지식 검색 + LLM
  • 검색: 질문 해석 → 문서 검색 → 답변 생성
  • 전문가 시스템: 규칙 DB + 추론

7. 실제 예제

Use Case: 머신러닝 논문 요약 생성기

  • 입력: “최근 RAG 논문 요약해줘”
  • 검색: ArXiv에서 RAG 논문 5-10개 검색
  • 생성: 모델이 논문들을 종합해 간결한 요약 생성
  • 효과: 개별 논문 읽기 없이도 분야 개요 파악 가능

연결되는 위키 페이지

  • rag — 신규 페이지: RAG의 개념·아키텍처·청킹 역설·평가 기준
  • dair-ai — 신규 페이지: DAIR.AI 조직 소개 및 교육 자료
  • agentic-ai-patterns — RAG를 에이전트 Tool Use 패턴의 한 예로 보강