Hallucination (LLM의 거짓 생성)

정의

**Hallucination (환각)**은 LLM이 사실에 근거하지 않은 그럴듯한 거짓 정보를 생성하는 현상입니다. 모델이 학습한 패턴에 기반하여 “있을 법한” 텍스트를 만들어내지만, 실제 사실과 무관한 내용일 수 있습니다.

근본 원인

원인설명
확률적 생성LLM은 확률 기반으로 다음 토큰 선택 → 항상 일치하는 답변 아님
학습 데이터 한계학습 데이터에 없는 정보는 추측으로 채움
제약 부재프롬프트에 구조 제약이 없으면 자유로운 생성
맥락 혼동비슷한 패턴이 섞이면서 잘못된 연결 생성

예시

전형적인 Hallucination

프롬프트: "다음 텍스트에서 모든 인물과 직업을 찾아줄래?"
원본 텍스트: "Alice는 엔지니어이다."

LLM 출력 (오류):
- Alice: Engineer
- Bob: Doctor (원본에 없음)
- Charlie: Manager (원본에 없음)

더 심각한 경우

프롬프트: "2024년 노벨상 수상자 5명을 나열해줘"
LLM 출력: 완전히 거짓 인물들을 만들어냄 (그럴듯하지만 실제 수상자가 아님)

영향

부정적 영향

  • 신뢰도 저하: 사용자가 LLM 출력을 검증해야 함
  • 엔터프라이즈 부적합: 금융, 의료, 법률 등 신뢰 필수 분야에서 사용 불가
  • 시스템 오염: 생성된 거짓 데이터가 다시 시스템에 입력되는 악순환

해결 방법

1. 온톨로지 제약 (Ontology Grounding)

제약 없음: "모든 정보를 자유롭게 생성해줘"
→ Hallucination 높음

온톨로지 기반: "이 스키마에만 맞춰 정보를 추출해줘:
  - Person: {name, title}
  - Organization: {name, domain}"
→ 범위를 벗어나는 hallucination 방지

2. Retrieval-Augmented Generation (RAG)

순수 LLM: "작업 중에 모르는 건 추측"
→ Hallucination 높음

RAG: "문서에서 먼저 검색한 후, 그 내용만 기반으로 답변"
→ 출처 확인 가능

3. 이웃 검증 (Neighbor Checking)

생성된 정보 → 기존 데이터와 비교 → 불일치면 플래그

관련 개념

  • Ontology — 제약을 통한 hallucination 방지
  • RAG — 검색 기반 생성으로 근거 확보
  • Generative AI — hallucination을 내포하는 생성형 AI의 특성
  • Knowledge Graph — 구조화된 사실로 hallucination 방지

관련 엔티티


관련 영상: Ontology Population using LLMs (AI인터시스브랜드, Video 1)