정의
**지식 그래프 완성(Knowledge Graph Completion)**은 온톨로지 임베딩을 통해 빈 정보를 자동으로 예측하고 채우는 프로세스이다. 벡터 공간에서의 의미적 거리를 이용해 미확인 관계를 추론한다.
근본 문제
현실의 지식 그래프:
┌─ 부모 ─┐
│ │
아버지 어머니
│ │
Tom Jane
│ │
└─ ??? ─┘
문제:
├─ "Tom의 자식" 정보가 없음
├─ "Jane의 자식" 정보도 없음
└─ "Tom과 Jane의 관계" 불명확
해결책:
└─ 벡터 좌표를 보면 "Tom ≈ 아버지" + "Jane ≈ 어머니"
→ "Tom과 Jane의 자식"을 추론 가능
핵심 원리
벡터 공간에서의 추론:
1. 개념 벡터화:
├─ 아버지: [0.8, 0.2, 0.1]
├─ 자식: [0.3, 0.7, 0.6]
└─ 관계(아버지→자식): [0.3 - 0.8, 0.7 - 0.2, ...] = [-0.5, 0.5, ...]
2. 관계의 재사용:
├─ Tom: [0.75, 0.25, 0.15] (아버지와 유사)
├─ 관계 벡터 더하기: [0.75, 0.25, 0.15] + [-0.5, 0.5, ...] = [0.25, 0.75, ...]
└─ 결과: [0.25, 0.75, ...] ≈ 자식 벡터!
3. 결론:
└─ "Tom은 자식을 가지고 있을 가능성 높음"
응용 시나리오
1. 누락된 관계 발견
상황:
├─ 온톨로지에 "단백질 A와 단백질 B의 상호작용" 기록 없음
├─ 하지만 벡터 공간에서 두 단백질이 가까움
└─ → AI가 이들의 상호작용 가능성 제안
장점:
└─ 실험 없이 후보 관계 자동 발견
2. 속성값 추론
상황:
├─ 새로운 질병이 발견됨
├─ 원인/증상/치료법이 미기록
└─ 하지만 비슷한 질병들로부터 추론 가능
예:
├─ 알려진 질병 A: 원인(바이러스) + 증상(발열) + 치료(항바이러스제)
├─ 새 질병: 증상(발열) + 알려지지 않은 치료법
└─ AI: "비슷한 증상이므로 항바이러스제 가능성" 제안
3. 엔티티 통합
상황:
├─ 회사 A: "Customer_001"
├─ 회사 B: "Client_567"
└─ 같은 사람인지 불명확
해결책:
├─ 두 엔티티의 벡터가 매우 가까움
├─ 관련 속성들도 유사
└─ "같은 사람일 가능성 높음" → 자동 통합
구체적 예시: 라쿤 분류
시나리오:
├─ AI가 라쿤 사진을 본 적 없음
└─ 하지만 온톨로지에 라쿤 정보 있음
온톨로지:
├─ 라쿤: 포유류 + 너구리과 + 야행성 + 잡식성
├─ 벡터: [0.8, 0.7, 0.6, ...] (포유류 특성)
새로운 이미지 분석:
├─ 사진의 특성 벡터: [0.79, 0.71, 0.59, ...]
├─ 온톨로지 벡터와 비교
└─ 거리: 매우 가까움
결론:
└─ "이 동물은 라쿤일 가능성 99% 이상"
(본 적 없어도 OK!)
정확도와 신뢰도
완성 품질의 단계:
Level 1 (낮음):
├─ 관계의 존재만 예측
└─ 확률: 70~80%
Level 2 (중간):
├─ 관계의 강도/속성도 예측
└─ 확률: 80~90%
Level 3 (높음):
├─ 복잡한 다단계 관계 예측
└─ 확률: 90%+
(단, 데이터와 모델이 우수해야 함)
한계와 위험
- 환각 위험 — AI가 근거 없이 관계를 만들 수 있음
- 데이터 편향 — 학습 데이터의 편향이 그대로 반영
- 성급한 결론 — 확률이 높아도 검증 필요
- 새로운 도메인 — 학습되지 않은 분야는 성능 낮음
검증 전략
1단계: AI 예측
└─ "관계 X의 존재 확률: 85%"
2단계: 후보 선정
├─ 확률이 높은 관계만 선택
└─ 예: 확률 >80%인 것만
3단계: 인간 검증
├─ 전문가가 예측 검토
├─ 필요시 실험으로 확인
└─ 결과를 온톨로지에 반영
4단계: 피드백 루프
└─ 검증 결과로 모델 재학습
관련 개념
- Ontology Embedding — 기술의 기초
- Inference — 논리적 추론
- Knowledge Graph — 대상 시스템
- Zero-shot Learning — 관련 학습 방식
- Semantic Similarity — 유사도 측정
핵심: 지식 그래프 완성은 “불완전한 세계에서도 의미 있는 추론이 가능”하다는 원칙을 실현하는 기술이다. 단, 항상 검증 필요.