Definition

온톨로지 품질 메트릭(Ontology Quality Metrics)은 구축된 온톨로지가 얼마나 좋은 품질인지 평가하는 기준과 지표의 모음이다.

Evaluation Framework

RIGOR 시스템이 사용하는 다중 기준 평가 프레임워크:

1. Accuracy (정확성)

정의: 온톨로지가 실제 데이터와 논리적으로 일치하는가?

평가 기준:

  • ✅ 팩트 기반 정의 — 상상이 아닌 실제 데이터 반영
  • ✅ 논리적 오류 없음 — 개념 간 모순 없음
  • ✅ 관계의 정확성 — “Doctor treats Patient” (O) / “Doctor eats Patient” (X)

측정:

정확도 = (정확한 항목 수) / (전체 항목 수)
RIGOR 성과: 72.4% 정확도 (원본 데이터 반영)

2. Completeness (완전성)

정의: 온톨로지가 필요한 모든 정보를 포함하는가?

평가 기준:

  • ✅ 핵심 개념 누락 없음
  • ✅ 필수 관계 모두 표현
  • ✅ 속성 정의 충분함

측정:

완전성 = (포함된 필수 항목) / (필요한 모든 항목)

예시: 의료 온톨로지

필수 포함:
├─ Entities: Patient, Doctor, Hospital, Disease, Treatment
├─ Relationships: "treats", "has_disease", "located_in"
├─ Attributes: Patient.age, Doctor.specialization, Hospital.beds
└─ 이 중 하나 누락 → 완전성 저하

3. Clarity (명확성)

정의: 온톨로지가 이해하기 쉬운가?

평가 기준:

  • ✅ 명확한 정의 — 중의성 없음
  • ✅ 전문 용어 설명
  • ✅ 예시 제시
  • ✅ 간결함 — 불필요한 설명 제거

측정:

명확도 = (쉽게 이해되는 정의 수) / (전체 정의 수)

나쁜 예 vs 좋은 예:

❌ "의료적 개입은 임상 컨텍스트 내 치료적 중재"
   (전문 용어만 나열, 이해 어려움)

✅ "Treatment는 의사가 환자의 질병을 치료하기 위해 시행하는 의료 행위
   (예: 약물 투여, 수술, 물리치료)"
   (명확한 정의 + 예시)

4. Consistency (일관성)

정의: 온톨로지 내 개념들이 서로 모순 없이 체계적인가?

평가 기준:

  • ✅ 상충하는 정의 없음
  • ✅ 같은 관계의 통일된 표현
  • ✅ 개념 간 명확한 계층 구조

측정:

일관성 = 모순 발견 횟수가 0에 가까운가?

예시 - 불일치:

❌ "Patient는 사람이다" 
   vs 
   "Patient는 약물일 수도 있다"
   (모순)

✅ "Patient는 의료 서비스를 받는 사람
    → 항상 사람
    → 다른 곳에서 다른 정의 없음"
   (일관적)

RIGOR’s Assessment Results

독립적 AI 심판관이 평가한 RIGOR 성과:

종합 점수

평가 결과: 4.6/5.0
해석:
├─ 4.0~4.6 = 우수 (Excellent)
├─ 3.0~3.9 = 좋음 (Good)
└─ RIGOR은 우수 범위

각 기준별 성과

기준점수해석
Accuracy⭐⭐⭐⭐⭐ (4.6)정확함, 팩트 기반
Completeness⭐⭐⭐⭐⭐ (4.6)누락 거의 없음
Clarity⭐⭐⭐⭐⭐ (4.6)명확한 표현
Consistency⭐⭐⭐⭐⭐ (4.6)모순 거의 없음

원본 데이터 반영도: 72.4%

  • RIGOR이 생성한 온톨로지 = 원본 데이터의 72% 이상 정확하게 반영
  • 단순 창작 X, 팩트 기반 O

Benchmark: Prior Methods

RIGOR 이전의 AI 방법들:

결과물 품질: 거의 0점 (쓸 만한 결과물 생성 불가)
상황: 시작조차 제대로 못 함

RIGOR의 성과:
├─ 4.6/5.0 (우수)
├─ 기존 방법 1.5/5.0과 비교 → 3배 이상 우수
└─ 실질적으로 사용 가능한 온톨로지

Practical Implications

온톨로지 선택 기준 (RIGOR 사용 시)

품질이 4.6/5.0 ≈ 프로덕션 레벨
→ 의료, 금융, 과학 등 중요 도메인에서 바로 사용 가능
→ 신뢰 가능한 의사결정 기반 제공

평가 빈도

  • 구축 중: 매 사이클마다 Reviewer가 평가
  • 완성 후: 주기적 감사 (품질 유지)

References