Ontology Generation using Large Language Models

채널: AI인터시스브랜드 | 날짜: 2025-12-12 | 길이: 약 7분 26초

Summary

Video 1에서 온톨로지를 사용하여 LLM의 hallucination을 제어하는 방법을 배웠다면, 이번 영상은 역방향: LLM 자체를 활용하여 온톨로지를 자동으로 생성하는 기법을 다룹니다.

텍스트 데이터로부터 자동으로 클래스, 속성, 관계를 추출하고, 이를 구조화된 온톨로지로 변환하는 완전 자동화 파이프라인을 소개합니다.

Key Claims

온톨로지 수작업의 비효율성: 전문가가 수동으로 온톨로지를 설계하는 것은 시간 소모적
LLM의 자동 추출 능력: LLM을 올바르게 사용하면 텍스트로부터 온톨로지 구조 자동 생성 가능
반복적 개선: 초기 생성된 온톨로지 → LLM 검증 → 개선 의 반복 루프
도메인 적응성: 새로운 도메인에 빠르게 온톨로지 구축 가능
비용 절감: 전문 온톨로지 설계자 없이도 품질 높은 온톨로지 자동 생성

Key Topics

1. 자동 온톨로지 생성의 필요성

전통 방식 (수동)
  └─ 도메인 전문가 → 인터뷰 → 클래스 설계 → 속성 정의 → 관계 매핑
     시간: 수주~수개월
     비용: 높음
     유연성: 낮음

LLM 기반 자동화
  └─ 텍스트 데이터 → LLM 추출 → 초기 온톨로지 → 검증 → 최종 온톨로지
     시간: 수시간~수일
     비용: 낮음 (API 비용만)
     유연성: 높음

2. LLM 기반 온톨로지 생성 프로세스

Step 1: 텍스트 입력
  ├─ 도메인 문서 모음 (예: 의료 기록, 제품 설명 등)
  └─ 크기: 최소 100문서 이상 권장

Step 2: LLM 추출 (Few-shot Learning)
  ├─ 프롬프트: "다음 텍스트에서 온톨로지 구조를 추출하세요"
  ├─ 입력: 샘플 텍스트 + 원하는 출력 형식 (예: JSON)
  └─ 결과: 클래스, 속성, 관계 리스트

Step 3: 구조화 & 정규화
  ├─ 중복 제거 (동의어 통합)
  ├─ 계층 구조 확립
  └─ 속성 타입 정의 (String, Integer, Date 등)

Step 4: 검증 & 피드백
  ├─ 온톨로지가 원본 데이터를 잘 표현하는가?
  ├─ 누락된 개념은?
  └─ LLM에 피드백 반영하여 재생성

Step 5: 최적화
  ├─ 불필요한 클래스 제거
  ├─ 세분화/일반화 조정
  └─ 문서화 (각 클래스와 관계의 정의)

3. 구체적 예: 의료 도메인

입력 텍스트:

"환자 김철수는 2023년 1월 15일 고혈압으로 
서울 대학병원의 내과 의사 이영희에게 진료받았습니다. 
약물은 리시노프릴 10mg을 하루 1회 처방받았습니다."

LLM 자동 추출:

{
  "classes": [
    {
      "name": "Patient",
      "attributes": ["name", "visitDate", "diagnosis"]
    },
    {
      "name": "Doctor",
      "attributes": ["name", "department", "hospital"]
    },
    {
      "name": "Medication",
      "attributes": ["name", "dosage", "frequency"]
    },
    {
      "name": "Hospital",
      "attributes": ["name", "location"]
    }
  ],
  "relationships": [
    {
      "from": "Patient",
      "to": "Doctor",
      "type": "CONSULTED_WITH"
    },
    {
      "from": "Doctor",
      "to": "Hospital",
      "type": "WORKS_AT"
    },
    {
      "from": "Patient",
      "to": "Medication",
      "type": "PRESCRIBED"
    }
  ]
}

4. 자동 생성 vs. 수동 설계

측면	자동 생성	수동 설계
속도	빠름 (수시간)	느림 (수주)
비용	낮음 (API 비용)	높음 (전문가)
정확도	초기: 70~80% → 반복으로 개선	높음 (90%+) 하지만 시간 소요
유연성	높음 (쉽게 수정)	낮음 (전체 재설계 필요)
초기 구축	우수	우수
유지보수	우수 (자동 업데이트 가능)	나쁨 (수동 갱신)

결론: 초기 구축은 자동 생성 + 반복 검증으로 빠르게, 최종 정제는 전문가 검토

5. 도메인별 온톨로지 생성 전략

매우 구조화된 도메인 (예: 금융, 의료)

LLM 자동 생성 효율 높음
초기 정확도 80%+
반복 검증으로 95%+ 달성 가능

약간 구조화된 도메인 (예: 이커머스, HR)

LLM 생성 + 수동 조정 필요
초기 정확도 60~70%
도메인 전문가 검토 필수

비정형 도메인 (예: 소설, 대화)

LLM 생성이 기초 제공
초기 정확도 40~50%
상당한 수동 정제 필요

Ontology — 온톨로지의 정의 및 역할
Entity Extraction — 텍스트에서 엔티티 자동 추출
Relationship Extraction — 관계 자동 추출
Knowledge Graph — 추출된 온톨로지의 저장소
Generative AI — LLM의 생성 능력
Few-shot Learning — 적은 샘플로부터의 학습
Prompt Engineering — LLM 지시문 설계

AI인터시스브랜드 — 채널
OpenAI — GPT 모델
Google DeepMind — Gemini 모델

Key Insights (My Analysis)

Video 1 ↔ Video 2의 상호 보완성:
- Video 1: 온톨로지 → 제약 → LLM 제어
- Video 2: 데이터 → LLM → 온톨로지 자동 생성
- 결합: 자동 생성 온톨로지 + LLM 제어 = 신뢰 가능한 시스템
엔터프라이즈 온톨로지 구축의 실무 패턴:
- Phase 1: LLM 자동 생성 (1~2일)
- Phase 2: 반복 검증 (3~5일)
- Phase 3: 전문가 정제 (1~2주)
- 총 시간: 기존 3~~6개월 → 3~~4주로 단축
AIINTERSYSBREND 강의 구조:
- Video 1: 온톨로지의 필요성 (왜?)
- Video 2: 온톨로지의 자동 생성 (어떻게?)
- Video 3~10: 온톨로지의 활용 (어디에?)

Connections to Other Sources

Ontology Population using LLMs (Video 1) — 온톨로지를 사용하여 LLM 제어
Vector Ontologies as LLM World View (Video 3) — 온톨로지와 벡터 표현의 결합
End to End Ontology Learning (Video 5) — 온톨로지 학습 전체 파이프라인

출처: AI인터시스브랜드 채널 (2025-12-12)

JYP Garden

탐색기

Ontology Generation using Large Language Models

Ontology Generation using Large Language Models

Summary

Key Claims

Key Topics

1. 자동 온톨로지 생성의 필요성

2. LLM 기반 온톨로지 생성 프로세스

3. 구체적 예: 의료 도메인

4. 자동 생성 vs. 수동 설계

5. 도메인별 온톨로지 생성 전략

Key Insights (My Analysis)

Connections to Other Sources

그래프 뷰

목차

JYP Garden

탐색기

Ontology Generation using Large Language Models

Ontology Generation using Large Language Models

Summary

Key Claims

Key Topics

1. 자동 온톨로지 생성의 필요성

2. LLM 기반 온톨로지 생성 프로세스

3. 구체적 예: 의료 도메인

4. 자동 생성 vs. 수동 설계

5. 도메인별 온톨로지 생성 전략

Related Concepts

Related Entities

Key Insights (My Analysis)

Connections to Other Sources

그래프 뷰

목차