Lakehouse Architecture (레이크하우스 아키텍처)
Key Insight
Lakehouse는 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 차세대 통합 플랫폼. 정형·비정형 데이터 관리, 분석, 머신러닝, AI 개발을 모두 지원.
정의
Lakehouse 아키텍처는 다음 두 시스템의 한계를 극복한 통합 아키텍처입니다(출처: data-management-2026-trends):
- Data Lake의 강점: 정형/반정형/비정형 데이터 모두 수용, 낮은 스토리지 비용
- Data Lake의 약점: 데이터 거버넌스 부족, 쿼리 성능 저하, 데이터 품질 관리 어려움
- Data Warehouse의 강점: 높은 쿼리 성능, 강화된 거버넌스, 데이터 품질 보증
- Data Warehouse의 약점: 구조화 데이터만 지원, 높은 운영 비용
아키텍처 구조
저장소 계층 (Storage Layer)
- 저비용 클라우드 스토리지: Parquet, ORC 등 오픈 포맷
- 원본 데이터: 정형/비정형 모두 보존
- 처리 데이터: 정제·변환 후 결과 저장
메타데이터 계층 (Metadata & Governance)
- 데이터 카탈로그
- 접근 제어 (Unity Catalog, Snowflake Horizon)
- 품질 지표 추적
쿼리 계층 (Query & Analytics)
- SQL 기반 분석
- 머신러닝/AI 개발
- 대화형 탐색
주요 특징
1. 통합 데이터 관리
구조화·비정형 데이터를 하나의 플랫폼에서 관리 (출처: data-management-2026-trends)
2. ACID 트랜잭션
- 데이터 일관성 보장
- 동시 접근 제어
- 실패 복구 능력
3. 스키마 진화 (Schema Evolution)
- 새로운 컬럼 추가 용이
- 기존 데이터 호환성 유지
- 버전 관리
4. 멀티엔진 호환성
- Apache Iceberg 같은 오픈 포맷
- 여러 분석 도구 동시 사용 가능
- 벤더 종속성 제거
람다(Lambda) vs 카파(Kappa) 아키텍처와의 관계
Lakehouse는 저장소 아키텍처이고, Lambda/Kappa는 처리 패턴입니다. 세 가지의 관계:
람다 아키텍처 (Lambda Architecture) (출처: big-data-architectures-azure)
- 콜드 경로: 모든 데이터를 원시 형식으로 저장 → 일괄 처리 (Batch View)
- 핫 경로: 실시간 스트림 처리 (Speed Layer)
- 서빙 계층: 두 경로의 결과를 병합해 쿼리
특징: 높은 정확도 + 높은 지연 (배치) 과 낮은 지연 + 낮은 정확도 (스트림)의 트레이드오프 해결
카파 아키텍처 (Kappa Architecture) (출처: big-data-architectures-azure)
- 단일 스트림 경로: 모든 데이터를 이벤트 스트림으로 처리
- 내결함성 통합 로그: Kafka, Event Hub 같은 메시지 큐
- 스트림 재생: 필요시 데이터 재처리
특징: 복잡도 감소, 일관성 향상, 하지만 높은 스트림 처리 비용
Lakehouse와의 통합
- Lakehouse 저장소 (Parquet, ORC)에 Lambda/Kappa 처리 결과 저장
- 일괄 처리 결과 = 콜드 데이터
- 실시간 처리 결과 = 핫 데이터
- ACID 트랜잭션으로 두 경로 간의 데이터 일관성 보장
DAP 위키에서의 활용
dap-wiki-ops-master-plan의 데이터 흐름 설계에서:
- 데이터 수집(raw) → 저장(lakehouse) → 처리(ETL) → 분석 파이프라인 설계 시 참고
- 저장소 선택 기준: 정형 데이터만 → 웨어하우스, 다양한 형식 → 레이크하우스
관련 개념
- etl-design-framework — 데이터 처리 파이프라인
- data-quality-and-governance — 품질 관리 및 거버넌스