Revisiting Non-Verbatim Memorization in LLMs: The Role of Entity Surface Forms

Source: arXiv:2604.21882v1 · 2026-04-23-redirectqa-llm-surface-form-memorization Type: article (arXiv preprint) By: Yuto Nishida et al. (NAIST / Future Corporation) Valid as of: 2026-04-23

핵심 Takeaway

  • LLM 사실 기억은 표면형 의존적: 동일 엔티티라도 이름이 달라지면 (예: “David Guetta” vs. 가명 “Jack Back”) 정답률이 크게 변한다 — Pythia-12B 기준 23.7% 불일치 (출처: §2 사전 실험)
  • RedirectQA 데이터셋 도입: Wikipedia 리다이렉트 범주를 활용해 30,560 표면형 인스턴스(14,672 사실 트리플) 구성; 표면형을 Alt./Abbrev. · Spelling Variants · Typical Errors 3유형으로 분류
  • 범주별 강인성 차이: 철자/다이어크리틱 변형(Spelling Variants)에는 강인하나, 별명·약어·이니셜리즘에는 취약 — 불일치가 범주 체계적으로 발생
  • 교차-표면 커플링: 엔티티 빈도가 특정 표면형 빈도보다 정확도 예측력이 높음 → 표면형별 독립 기억이 아니라 엔티티 수준의 지식이 결합(cross-surface coupling)됨
  • 평가 편향 경고: 정식 표현(canonical)만으로 LLM 평가 시 표면형 조건부 실패를 놓친다 — 표면형 다양성이 평가 설계의 핵심 변수

상세 요약

RedirectQA 설계

Wikidata 사실 트리플 (subject, relation, object) + Wikipedia 리다이렉트 정보를 결합해 구성.

  • 주어 엔티티만 다른 표면형으로 교체 (관계·정답 고정)
  • 선택된 33개 리다이렉트 범주를 3대 유형으로 묶음
유형예시특징
Alt./Abbrev.”Stevie Wonder” ↔ 출생명 “Stevland Hardaway Judkins”어휘 단위 변화 크다
Spelling Variants”Nicolas Sarkozy” ↔ “Nicolas Sarközy”철자·발음 미세 변형
Typical Errors”Cristiano Ronaldo” ↔ 오기 “Christian Ronaldo”흔한 실수·오표기

두 가지 질문 템플릿(원본 + GPT-4o 패러프레이즈)으로 각 인스턴스를 2벌 생성 → 총 61,120 질문 쌍.

실험 결과 (13개 LLM 대상)

  • 모든 모델에서 표면형 변화로 인한 정답 뒤집기(correctness flip) 발생
  • 대형 모델이 소형 모델보다 일반적으로 더 일관성 있으나 단조롭지 않음
  • GPT-4o-mini조차 완전한 일관성 미달
  • 이니셜리즘(“NYT”)은 특히 어렵고, 긴 이름은 상대적으로 접근 성공률 높음

빈도 분석

엔티티 링커(DBpedia Spotlight)로 사전학습 코퍼스(The Pile, OLMo Mix 1124)에서 빈도 측정.

  • 정준 표면형(canonical) 서브셋: 표면형 빈도의 부분 상관계수는 0에 가깝거나 음수 → 엔티티 빈도가 표면형 빈도를 제어한 후에도 지속적으로 양의 예측력
  • 리다이렉트(redirect) 서브셋: 두 빈도 모두 독립적 양의 예측력 보유

연결되는 위키 페이지

  • non-verbatim-memorization — 이 소스가 정의·탐구하는 핵심 개념
  • rag — RAG의 동기 중 하나: LLM 단독의 표면형 조건부 지식 한계를 보완
  • agentic-ai-curriculum — LLM 신뢰성·평가 이해가 커리큘럼 필수 항목