Ontology Generation using Large Language Models
채널: AI인터시스브랜드 | 날짜: 2025-12-12 | 길이: 약 7분 26초
Summary
Video 1에서 온톨로지를 사용하여 LLM의 hallucination을 제어하는 방법을 배웠다면, 이번 영상은 역방향: LLM 자체를 활용하여 온톨로지를 자동으로 생성하는 기법을 다룹니다.
텍스트 데이터로부터 자동으로 클래스, 속성, 관계를 추출하고, 이를 구조화된 온톨로지로 변환하는 완전 자동화 파이프라인을 소개합니다.
Key Claims
- 온톨로지 수작업의 비효율성: 전문가가 수동으로 온톨로지를 설계하는 것은 시간 소모적
- LLM의 자동 추출 능력: LLM을 올바르게 사용하면 텍스트로부터 온톨로지 구조 자동 생성 가능
- 반복적 개선: 초기 생성된 온톨로지 → LLM 검증 → 개선 의 반복 루프
- 도메인 적응성: 새로운 도메인에 빠르게 온톨로지 구축 가능
- 비용 절감: 전문 온톨로지 설계자 없이도 품질 높은 온톨로지 자동 생성
Key Topics
1. 자동 온톨로지 생성의 필요성
전통 방식 (수동)
└─ 도메인 전문가 → 인터뷰 → 클래스 설계 → 속성 정의 → 관계 매핑
시간: 수주~수개월
비용: 높음
유연성: 낮음
LLM 기반 자동화
└─ 텍스트 데이터 → LLM 추출 → 초기 온톨로지 → 검증 → 최종 온톨로지
시간: 수시간~수일
비용: 낮음 (API 비용만)
유연성: 높음
2. LLM 기반 온톨로지 생성 프로세스
Step 1: 텍스트 입력
├─ 도메인 문서 모음 (예: 의료 기록, 제품 설명 등)
└─ 크기: 최소 100문서 이상 권장
Step 2: LLM 추출 (Few-shot Learning)
├─ 프롬프트: "다음 텍스트에서 온톨로지 구조를 추출하세요"
├─ 입력: 샘플 텍스트 + 원하는 출력 형식 (예: JSON)
└─ 결과: 클래스, 속성, 관계 리스트
Step 3: 구조화 & 정규화
├─ 중복 제거 (동의어 통합)
├─ 계층 구조 확립
└─ 속성 타입 정의 (String, Integer, Date 등)
Step 4: 검증 & 피드백
├─ 온톨로지가 원본 데이터를 잘 표현하는가?
├─ 누락된 개념은?
└─ LLM에 피드백 반영하여 재생성
Step 5: 최적화
├─ 불필요한 클래스 제거
├─ 세분화/일반화 조정
└─ 문서화 (각 클래스와 관계의 정의)
3. 구체적 예: 의료 도메인
입력 텍스트:
"환자 김철수는 2023년 1월 15일 고혈압으로
서울 대학병원의 내과 의사 이영희에게 진료받았습니다.
약물은 리시노프릴 10mg을 하루 1회 처방받았습니다."
LLM 자동 추출:
{
"classes": [
{
"name": "Patient",
"attributes": ["name", "visitDate", "diagnosis"]
},
{
"name": "Doctor",
"attributes": ["name", "department", "hospital"]
},
{
"name": "Medication",
"attributes": ["name", "dosage", "frequency"]
},
{
"name": "Hospital",
"attributes": ["name", "location"]
}
],
"relationships": [
{
"from": "Patient",
"to": "Doctor",
"type": "CONSULTED_WITH"
},
{
"from": "Doctor",
"to": "Hospital",
"type": "WORKS_AT"
},
{
"from": "Patient",
"to": "Medication",
"type": "PRESCRIBED"
}
]
}4. 자동 생성 vs. 수동 설계
| 측면 | 자동 생성 | 수동 설계 |
|---|---|---|
| 속도 | 빠름 (수시간) | 느림 (수주) |
| 비용 | 낮음 (API 비용) | 높음 (전문가) |
| 정확도 | 초기: 70~80% → 반복으로 개선 | 높음 (90%+) 하지만 시간 소요 |
| 유연성 | 높음 (쉽게 수정) | 낮음 (전체 재설계 필요) |
| 초기 구축 | 우수 | 우수 |
| 유지보수 | 우수 (자동 업데이트 가능) | 나쁨 (수동 갱신) |
결론: 초기 구축은 자동 생성 + 반복 검증으로 빠르게, 최종 정제는 전문가 검토
5. 도메인별 온톨로지 생성 전략
매우 구조화된 도메인 (예: 금융, 의료)
- LLM 자동 생성 효율 높음
- 초기 정확도 80%+
- 반복 검증으로 95%+ 달성 가능
약간 구조화된 도메인 (예: 이커머스, HR)
- LLM 생성 + 수동 조정 필요
- 초기 정확도 60~70%
- 도메인 전문가 검토 필수
비정형 도메인 (예: 소설, 대화)
- LLM 생성이 기초 제공
- 초기 정확도 40~50%
- 상당한 수동 정제 필요
Related Concepts
- Ontology — 온톨로지의 정의 및 역할
- Entity Extraction — 텍스트에서 엔티티 자동 추출
- Relationship Extraction — 관계 자동 추출
- Knowledge Graph — 추출된 온톨로지의 저장소
- Generative AI — LLM의 생성 능력
- Few-shot Learning — 적은 샘플로부터의 학습
- Prompt Engineering — LLM 지시문 설계
Related Entities
- AI인터시스브랜드 — 채널
- OpenAI — GPT 모델
- Google DeepMind — Gemini 모델
Key Insights (My Analysis)
-
Video 1 ↔ Video 2의 상호 보완성:
- Video 1: 온톨로지 → 제약 → LLM 제어
- Video 2: 데이터 → LLM → 온톨로지 자동 생성
- 결합: 자동 생성 온톨로지 + LLM 제어 = 신뢰 가능한 시스템
-
엔터프라이즈 온톨로지 구축의 실무 패턴:
- Phase 1: LLM 자동 생성 (1~2일)
- Phase 2: 반복 검증 (3~5일)
- Phase 3: 전문가 정제 (1~2주)
- 총 시간: 기존 3
6개월 → 34주로 단축
-
AIINTERSYSBREND 강의 구조:
- Video 1: 온톨로지의 필요성 (왜?)
- Video 2: 온톨로지의 자동 생성 (어떻게?)
- Video 3~10: 온톨로지의 활용 (어디에?)
Connections to Other Sources
- Ontology Population using LLMs (Video 1) — 온톨로지를 사용하여 LLM 제어
- Vector Ontologies as LLM World View (Video 3) — 온톨로지와 벡터 표현의 결합
- End to End Ontology Learning (Video 5) — 온톨로지 학습 전체 파이프라인
출처: AI인터시스브랜드 채널 (2025-12-12)