정의

**지식 그래프 완성(Knowledge Graph Completion)**은 온톨로지 임베딩을 통해 빈 정보를 자동으로 예측하고 채우는 프로세스이다. 벡터 공간에서의 의미적 거리를 이용해 미확인 관계를 추론한다.

근본 문제

현실의 지식 그래프:

       ┌─ 부모 ─┐
       │        │
     아버지   어머니
       │        │
     Tom      Jane
       │        │
       └─ ??? ─┘

문제:
├─ "Tom의 자식" 정보가 없음
├─ "Jane의 자식" 정보도 없음
└─ "Tom과 Jane의 관계" 불명확

해결책:
└─ 벡터 좌표를 보면 "Tom ≈ 아버지" + "Jane ≈ 어머니"
   → "Tom과 Jane의 자식"을 추론 가능

핵심 원리

벡터 공간에서의 추론:

1. 개념 벡터화:
   ├─ 아버지: [0.8, 0.2, 0.1]
   ├─ 자식: [0.3, 0.7, 0.6]
   └─ 관계(아버지→자식): [0.3 - 0.8, 0.7 - 0.2, ...] = [-0.5, 0.5, ...]

2. 관계의 재사용:
   ├─ Tom: [0.75, 0.25, 0.15] (아버지와 유사)
   ├─ 관계 벡터 더하기: [0.75, 0.25, 0.15] + [-0.5, 0.5, ...] = [0.25, 0.75, ...]
   └─ 결과: [0.25, 0.75, ...] ≈ 자식 벡터!

3. 결론:
   └─ "Tom은 자식을 가지고 있을 가능성 높음"

응용 시나리오

1. 누락된 관계 발견

상황:
├─ 온톨로지에 "단백질 A와 단백질 B의 상호작용" 기록 없음
├─ 하지만 벡터 공간에서 두 단백질이 가까움
└─ → AI가 이들의 상호작용 가능성 제안

장점:
└─ 실험 없이 후보 관계 자동 발견

2. 속성값 추론

상황:
├─ 새로운 질병이 발견됨
├─ 원인/증상/치료법이 미기록
└─ 하지만 비슷한 질병들로부터 추론 가능

예:
├─ 알려진 질병 A: 원인(바이러스) + 증상(발열) + 치료(항바이러스제)
├─ 새 질병: 증상(발열) + 알려지지 않은 치료법
└─ AI: "비슷한 증상이므로 항바이러스제 가능성" 제안

3. 엔티티 통합

상황:
├─ 회사 A: "Customer_001"
├─ 회사 B: "Client_567"
└─ 같은 사람인지 불명확

해결책:
├─ 두 엔티티의 벡터가 매우 가까움
├─ 관련 속성들도 유사
└─ "같은 사람일 가능성 높음" → 자동 통합

구체적 예시: 라쿤 분류

시나리오:
├─ AI가 라쿤 사진을 본 적 없음
└─ 하지만 온톨로지에 라쿤 정보 있음

온톨로지:
├─ 라쿤: 포유류 + 너구리과 + 야행성 + 잡식성
├─ 벡터: [0.8, 0.7, 0.6, ...] (포유류 특성)

새로운 이미지 분석:
├─ 사진의 특성 벡터: [0.79, 0.71, 0.59, ...]
├─ 온톨로지 벡터와 비교
└─ 거리: 매우 가까움

결론:
└─ "이 동물은 라쿤일 가능성 99% 이상"
   (본 적 없어도 OK!)

정확도와 신뢰도

완성 품질의 단계:

Level 1 (낮음):
├─ 관계의 존재만 예측
└─ 확률: 70~80%

Level 2 (중간):
├─ 관계의 강도/속성도 예측
└─ 확률: 80~90%

Level 3 (높음):
├─ 복잡한 다단계 관계 예측
└─ 확률: 90%+
   (단, 데이터와 모델이 우수해야 함)

한계와 위험

  1. 환각 위험 — AI가 근거 없이 관계를 만들 수 있음
  2. 데이터 편향 — 학습 데이터의 편향이 그대로 반영
  3. 성급한 결론 — 확률이 높아도 검증 필요
  4. 새로운 도메인 — 학습되지 않은 분야는 성능 낮음

검증 전략

1단계: AI 예측
└─ "관계 X의 존재 확률: 85%"

2단계: 후보 선정
├─ 확률이 높은 관계만 선택
└─ 예: 확률 >80%인 것만

3단계: 인간 검증
├─ 전문가가 예측 검토
├─ 필요시 실험으로 확인
└─ 결과를 온톨로지에 반영

4단계: 피드백 루프
└─ 검증 결과로 모델 재학습

관련 개념


핵심: 지식 그래프 완성은 “불완전한 세계에서도 의미 있는 추론이 가능”하다는 원칙을 실현하는 기술이다. 단, 항상 검증 필요.