Knowledge Graph Engineering (KGE)

정의

**Knowledge Graph Engineering (KGE)**는 AI 시스템의 ‘뇌’에 개념 지도를 구축하는 작업. 복잡한 실세계 지식을 컴퓨터가 이해할 수 있는 구조화된 그래프 형태로 설계하고 구현하는 엔지니어링 분야.

즉, 온톨로지를 설계하고 이를 기반으로 지식 그래프를 구축하는 전체 프로세스를 의미한다.

핵심 특징

특징설명
본질AI의 뇌에 개념 지도 그리기
규모매우 방대 (생물학 KG만 4만개+ 개념)
복잡성수십년 동안 해결 불가능한 난제
전문성도메인 전문가의 깊은 개입 필수

역사적 어려움

지난 25년의 병목 (Bottleneck)

AI 발전의 방정식:
더 나은 데이터 구조 + 더 나은 알고리듐 = 더 나은 AI

하지만:
KGE가 너무 어려워서 → 좋은 지식 구조 구축 불가능
→ 아무리 강력한 알고리듐도 고품질 데이터 받지 못함
→ AI 발전 정체

복잡성의 차원

생물학 지식 그래프 단 하나에만:

  • 4만개 이상의 서로 다른 개념
  • 각 개념 간의 복잡한 관계
  • 도메인 전문가도 전체 구조 파악 불가능

현실 세계 지식:

  • 생물학, 화학, 물리학, 사회학, 경제학 …
  • 이들 도메인 간 교차점들
  • 시시각각 변하는 동적 지식

전문가 기반 KGE의 한계

비용 (Cost)

  • 수년이 걸리는 프로젝트
  • 고급 전문가 팀 필수
  • 실수 및 재작업 빈번

완전성 (Completeness)

  • 아무리 노력해도 빠진 개념 존재
  • 모든 관계를 포착 불가능
  • 시간이 지나면 구조 노후화

확장성 (Scalability)

KG 크기 증가
→ 필요 전문가 수 지수 증가
→ 비용 급상승
→ 시간 급증
→ 결국 현실적으로 불가능

LLM의 등장과 초기 희망

LLM의 강점

속도: 인간 전문가 대비 수백배~수천배 빠름
규모: 수조 개 데이터 포인트 한 번에 처리
비용: 한 번의 학습으로 반복 사용 가능

LLM의 치명적 한계

신뢰성 부족: 그럴듯한 거짓말 생성 (할루시네이션)
정확성 부족: 특히 복잡한 구조화 작업에서
일관성 부족: 같은 개념을 다르게 표현 가능

실제 실험: 완전한 실패

미션: 복잡한 해양학 지식 그래프 두 개를 정렬

  • 서로 다른 개념들을 매핑
  • 중복 개념 식별
  • 새로운 관계 발견

결과:

LLM 단독: 성공률 ≈ 0%
연구진 표현: "본질적으로 완전히 실패했다"
품질: "거의 쓸모가 없었다"

원인:

  • 너무 방대하고 복잡한 문제
  • LLM의 일관성 부족으로 인한 오류 누적
  • 구조적 논리의 부재

KGE의 미래: 모듈화된 접근

혁명적 전환

Before: 전체 KGE 문제를 한 번에 처리

엄청나게 복잡한 지식 구조 전체
→ LLM에게 한 번에 던짐
→ 낮은 품질, 높은 오류율

After: 모듈화된 점진적 처리

1단계: 필요한 모듈들 선택
2단계: 선택된 모듈들만으로 문제 해결
→ 높은 정확도, 95% 성공률

성과

접근법          성공률
─────────────────────
LLM 단독:       ≈ 0%
모듈화 + LLM:   95%

개선율: 무한대 (0% → 95%)

KGE의 실제 과정

단계별 진행

1. 도메인 분석
   └─ 주요 개념 식별
   └─ 개념 간 관계 파악

2. 온톨로지 설계
   └─ 클래스 정의
   └─ 프로퍼티 설정
   └─ 제약 조건 명시

3. 지식 그래프 구축
   └─ 인스턴스 데이터 입력
   └─ 관계 연결
   └─ 품질 검증

4. 지속적 개선
   └─ 새로운 지식 추가
   └─ 일관성 검증
   └─ 스키마 최적화

KGE와 모듈성

모듈화된 KGE의 구조

전체 도메인
├─ Module A (생물학 개념)
│  ├─ Species
│  ├─ Genes
│  └─ Proteins
├─ Module B (화학 개념)
│  ├─ Compounds
│  ├─ Reactions
│  └─ Properties
└─ Module C (통합 모듈)
   └─ Interactions between A & B

모듈별 처리

  1. 모듈 선택 — 문제 해결에 필요한 모듈들 식별
  2. 집중 처리 — 선택된 모듈들만 깊이 있게 다루기
  3. 통합 — 모듈 간 연결 및 관계 정의

KGE의 응용 분야

학술 도메인

  • 생물학 (단백질, 유전자, 질병 관계)
  • 화학 (화합물, 반응, 특성)
  • 의학 (진단, 치료, 약물 상호작용)

비즈니스 도메인

  • 전자상거래 (상품, 카테고리, 사용자)
  • 금융 (거래, 포트폴리오, 리스크)
  • 공급망 (공급자, 제품, 배송)

정보 시스템

  • Wikipedia의 구조화된 정보
  • Google의 Knowledge Graph
  • 엔터프라이즈 데이터 통합

모듈성이 가져온 패러다임 전환

핵심 발견

더 똑똑한 AI를 만드는 비결:

  • LLM 성능 향상만이 아님
  • 인간이 만든 좋은 구조 + AI의 창의성 결합
  • 이 둘의 협업이 진정한 열쇠

일반화된 교훈: 분할 정복

어려운 문제 해결의 원칙:

KGE가 보여준 것:
큰 문제를 잘게 나누기 → 급격한 성능 향상

이것이 의미하는 바:
우리 삶의 다른 복잡한 문제들도
이 방식으로 풀어볼 수 있지 않을까?

관련 개념


출처: AI인터시스브랜드 - Accelerating Knowledge Graph and Ontology Engineering (2025-12-13)

관련 영상: accelerating-kg-ontology