From RAG to Context — A 2025 Year-End Review of RAG
Source: raw/articles/2025-12-22-ragflow-rag-review-2025.md Type: article By: RAGFlow (unknown author) Valid as of: 2025-12-22
핵심 Takeaway
- RAG는 2025년에도 엔터프라이즈 AI 인프라의 필수 기반 — Long Context 윈도우가 대체하지 못함 (출처: §Long Context vs. RAG Debate)
- “Lost in the Middle” 효과: 문서를 맹목적으로 컨텍스트에 채우면 품질 저하 + 비용 폭증 — RAG+Long Context 시너지가 최적
- 청크 역설: 소형(정밀 검색용)과 대형(맥락 이해용) 청크의 모순 → 검색·읽기 분리(fine-grained search + coarse-grained read)로 해소
- rag는 개별 Q&A 도구에서 Agent 전체 데이터 기반(“Context Engine”)으로 진화 중
- Memory(동적 로그) + RAG(정적 지식) = AI Agent 완전한 데이터 기반
상세 요약
Long Context vs RAG (2025-12-22 기준)
2024년 이론적 논쟁(Long Context가 RAG를 대체할 것인가)이 2025년 실전 테스트로 진입. 결론: Long Context 단독 사용 시 “Lost in the Middle” 효과로 품질 저하 + 비용 폭증. RAG + Long Context 시너지(“retrieval-first, long-context containment”)가 실용 최적.
외부 지식 패러다임 비용 순위 (Valid as of: 2025-12-22):
- LLM 단독 Long Context — 최고 비용
- KV Cache 통합 — 높은 오버헤드
- 단순 키워드 검색(grep 등) — 구조적 데이터 한정
- Full RAG 아키텍처 — 비용-성능 최적비
청크 역설과 해결책
고정 크기 청크의 구조적 모순:
- 의미 매칭(검색)용: 소형 청크(100-256 토큰) — 정밀
- 맥락 이해(활용)용: 대형 청크(1024+ 토큰) — 완결성
현대 RAG는 검색 단계(미세 텍스트 단위)와 읽기 단계(대형 문맥 블록) 분리. RAGFlow의 TreeRAG는 오프라인 계층적 트리 요약 + 온라인 구조 탐색으로 이를 구현.
RAG → Context Engine 진화
Agent 시대에 RAG는 고립된 Q&A 도구에서 Agent 전체 컨텍스트 조립 기반으로 확장:
- 도메인 지식 데이터 — RAG로 검색
- 도구 데이터 — 수백~수천 개 도구 설명 동적 필터링
- 대화·상태 데이터 — 메모리 시스템 (RAG와 기술 기반 공유)
Memory와 RAG의 구분
| RAG | Memory | |
|---|---|---|
| 데이터 종류 | 사전 존재 정적 지식 | 동적 생성 대화 로그 |
| 목적 | 도메인 사실·배경 제공 | 대화 연속성·개인화 |
| 파이프라인 | Ingestion Pipeline(PTI) | 메모리 흐름·처리·생명주기 |
연결되는 위키 페이지
- rag — 이 소스가 정의·심화한 핵심 개념
- compounding-artifact — RAG와 대비되는 LLM Wiki 접근
- index-first-retrieval — RAG 없이 위키 탐색하는 방법
- llm-wiki-vs-rag-comparison-2026-04-20 — LLM Wiki vs RAG 비교 인사이트