Hallucination (LLM의 거짓 생성)

정의

**Hallucination (환각)**은 LLM이 사실에 근거하지 않은 그럴듯한 거짓 정보를 생성하는 현상입니다. 모델이 학습한 패턴에 기반하여 “있을 법한” 텍스트를 만들어내지만, 실제 사실과 무관한 내용일 수 있습니다.

근본 원인

원인	설명
확률적 생성	LLM은 확률 기반으로 다음 토큰 선택 → 항상 일치하는 답변 아님
학습 데이터 한계	학습 데이터에 없는 정보는 추측으로 채움
제약 부재	프롬프트에 구조 제약이 없으면 자유로운 생성
맥락 혼동	비슷한 패턴이 섞이면서 잘못된 연결 생성

예시

전형적인 Hallucination

프롬프트: "다음 텍스트에서 모든 인물과 직업을 찾아줄래?"
원본 텍스트: "Alice는 엔지니어이다."

LLM 출력 (오류):
- Alice: Engineer
- Bob: Doctor (원본에 없음)
- Charlie: Manager (원본에 없음)

더 심각한 경우

프롬프트: "2024년 노벨상 수상자 5명을 나열해줘"
LLM 출력: 완전히 거짓 인물들을 만들어냄 (그럴듯하지만 실제 수상자가 아님)

영향

부정적 영향

신뢰도 저하: 사용자가 LLM 출력을 검증해야 함
엔터프라이즈 부적합: 금융, 의료, 법률 등 신뢰 필수 분야에서 사용 불가
시스템 오염: 생성된 거짓 데이터가 다시 시스템에 입력되는 악순환

해결 방법

1. 온톨로지 제약 (Ontology Grounding)

제약 없음: "모든 정보를 자유롭게 생성해줘"
→ Hallucination 높음

온톨로지 기반: "이 스키마에만 맞춰 정보를 추출해줘:
  - Person: {name, title}
  - Organization: {name, domain}"
→ 범위를 벗어나는 hallucination 방지

2. Retrieval-Augmented Generation (RAG)

순수 LLM: "작업 중에 모르는 건 추측"
→ Hallucination 높음

RAG: "문서에서 먼저 검색한 후, 그 내용만 기반으로 답변"
→ 출처 확인 가능

3. 이웃 검증 (Neighbor Checking)

생성된 정보 → 기존 데이터와 비교 → 불일치면 플래그

JYP Garden

탐색기

Hallucination

Hallucination (LLM의 거짓 생성)

정의

근본 원인

예시

전형적인 Hallucination

더 심각한 경우

영향

부정적 영향

해결 방법

1. 온톨로지 제약 (Ontology Grounding)

2. Retrieval-Augmented Generation (RAG)

3. 이웃 검증 (Neighbor Checking)

관련 개념

관련 엔티티

그래프 뷰

목차