Hallucination (LLM의 거짓 생성)
정의
**Hallucination (환각)**은 LLM이 사실에 근거하지 않은 그럴듯한 거짓 정보를 생성하는 현상입니다. 모델이 학습한 패턴에 기반하여 “있을 법한” 텍스트를 만들어내지만, 실제 사실과 무관한 내용일 수 있습니다.
근본 원인
| 원인 | 설명 |
|---|---|
| 확률적 생성 | LLM은 확률 기반으로 다음 토큰 선택 → 항상 일치하는 답변 아님 |
| 학습 데이터 한계 | 학습 데이터에 없는 정보는 추측으로 채움 |
| 제약 부재 | 프롬프트에 구조 제약이 없으면 자유로운 생성 |
| 맥락 혼동 | 비슷한 패턴이 섞이면서 잘못된 연결 생성 |
예시
전형적인 Hallucination
프롬프트: "다음 텍스트에서 모든 인물과 직업을 찾아줄래?"
원본 텍스트: "Alice는 엔지니어이다."
LLM 출력 (오류):
- Alice: Engineer
- Bob: Doctor (원본에 없음)
- Charlie: Manager (원본에 없음)
더 심각한 경우
프롬프트: "2024년 노벨상 수상자 5명을 나열해줘"
LLM 출력: 완전히 거짓 인물들을 만들어냄 (그럴듯하지만 실제 수상자가 아님)
영향
부정적 영향
- 신뢰도 저하: 사용자가 LLM 출력을 검증해야 함
- 엔터프라이즈 부적합: 금융, 의료, 법률 등 신뢰 필수 분야에서 사용 불가
- 시스템 오염: 생성된 거짓 데이터가 다시 시스템에 입력되는 악순환
해결 방법
1. 온톨로지 제약 (Ontology Grounding)
제약 없음: "모든 정보를 자유롭게 생성해줘"
→ Hallucination 높음
온톨로지 기반: "이 스키마에만 맞춰 정보를 추출해줘:
- Person: {name, title}
- Organization: {name, domain}"
→ 범위를 벗어나는 hallucination 방지
2. Retrieval-Augmented Generation (RAG)
순수 LLM: "작업 중에 모르는 건 추측"
→ Hallucination 높음
RAG: "문서에서 먼저 검색한 후, 그 내용만 기반으로 답변"
→ 출처 확인 가능
3. 이웃 검증 (Neighbor Checking)
생성된 정보 → 기존 데이터와 비교 → 불일치면 플래그
관련 개념
- Ontology — 제약을 통한 hallucination 방지
- RAG — 검색 기반 생성으로 근거 확보
- Generative AI — hallucination을 내포하는 생성형 AI의 특성
- Knowledge Graph — 구조화된 사실로 hallucination 방지
관련 엔티티
- OpenAI — GPT의 hallucination 연구 주도
- Google DeepMind — Gemini의 hallucination 개선 중
관련 영상: Ontology Population using LLMs (AI인터시스브랜드, Video 1)