Definition

데이터 사일로(Data Silo)는 조직 내에서 서로 다른 시스템, 부서, 도메인에 갇혀 있는 분리된 데이터 저장소를 의미한다. 각 사일로는 독립적인 데이터 포맷, 스키마, 쿼리 언어를 사용하여 상호 연결되지 않은 거대한 섬(island)과 같다.

Problem Statement

  • 상호 비호환성: 의료기록(EHR), 금융거래(Financial), 과학연구(Research) 데이터가 서로 다른 언어와 구조로 존재
  • 의미적 연결 불가: 다른 데이터베이스의 정보를 참조하여 복잡한 질문을 던질 수 없음
  • 비효율적 통합: 데이터 통합 프로젝트는 시간 소비, 비용 증가, 낮은 성공률
  • 보이지 않는 벽(Invisible Wall): 조직 내 깊게 내재된 구조 때문에 근본적 해결이 어려움

Metaphor: Data Warehouse vs Smart Library

상태특징문제
Data Warehouse (현황)귀중품들이 상자에 가득 쌓여 있음라벨이 없어서 뭐가 어디 있는지, 어떤 물건들이 관련 있는지 알 수 없음
Smart Library (목표)모든 정보에 꼬리표(label)가 붙고 서로 연결됨아무리 복잡한 질문도 척 답을 찾아줌

Solution Approach

Master-Catalog (온톨로지)를 통해 데이터 사일로를 Smart-Library로 변환:

  • 단일 공용 언어(lingua franca) 도입
  • 모든 데이터 간 의미적 관계 명시
  • RAG-for-Ontology 기술로 자동 구축

References