Lakehouse Architecture (레이크하우스 아키텍처)

Key Insight

Lakehouse는 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 차세대 통합 플랫폼. 정형·비정형 데이터 관리, 분석, 머신러닝, AI 개발을 모두 지원.

정의

Lakehouse 아키텍처는 다음 두 시스템의 한계를 극복한 통합 아키텍처입니다(출처: data-management-2026-trends):

  • Data Lake의 강점: 정형/반정형/비정형 데이터 모두 수용, 낮은 스토리지 비용
  • Data Lake의 약점: 데이터 거버넌스 부족, 쿼리 성능 저하, 데이터 품질 관리 어려움
  • Data Warehouse의 강점: 높은 쿼리 성능, 강화된 거버넌스, 데이터 품질 보증
  • Data Warehouse의 약점: 구조화 데이터만 지원, 높은 운영 비용

아키텍처 구조

저장소 계층 (Storage Layer)

  • 저비용 클라우드 스토리지: Parquet, ORC 등 오픈 포맷
  • 원본 데이터: 정형/비정형 모두 보존
  • 처리 데이터: 정제·변환 후 결과 저장

메타데이터 계층 (Metadata & Governance)

  • 데이터 카탈로그
  • 접근 제어 (Unity Catalog, Snowflake Horizon)
  • 품질 지표 추적

쿼리 계층 (Query & Analytics)

  • SQL 기반 분석
  • 머신러닝/AI 개발
  • 대화형 탐색

주요 특징

1. 통합 데이터 관리

구조화·비정형 데이터를 하나의 플랫폼에서 관리 (출처: data-management-2026-trends)

2. ACID 트랜잭션

  • 데이터 일관성 보장
  • 동시 접근 제어
  • 실패 복구 능력

3. 스키마 진화 (Schema Evolution)

  • 새로운 컬럼 추가 용이
  • 기존 데이터 호환성 유지
  • 버전 관리

4. 멀티엔진 호환성

  • Apache Iceberg 같은 오픈 포맷
  • 여러 분석 도구 동시 사용 가능
  • 벤더 종속성 제거

람다(Lambda) vs 카파(Kappa) 아키텍처와의 관계

Lakehouse는 저장소 아키텍처이고, Lambda/Kappa는 처리 패턴입니다. 세 가지의 관계:

람다 아키텍처 (Lambda Architecture) (출처: big-data-architectures-azure)

  • 콜드 경로: 모든 데이터를 원시 형식으로 저장 → 일괄 처리 (Batch View)
  • 핫 경로: 실시간 스트림 처리 (Speed Layer)
  • 서빙 계층: 두 경로의 결과를 병합해 쿼리

특징: 높은 정확도 + 높은 지연 (배치) 과 낮은 지연 + 낮은 정확도 (스트림)의 트레이드오프 해결

카파 아키텍처 (Kappa Architecture) (출처: big-data-architectures-azure)

  • 단일 스트림 경로: 모든 데이터를 이벤트 스트림으로 처리
  • 내결함성 통합 로그: Kafka, Event Hub 같은 메시지 큐
  • 스트림 재생: 필요시 데이터 재처리

특징: 복잡도 감소, 일관성 향상, 하지만 높은 스트림 처리 비용

Lakehouse와의 통합

  • Lakehouse 저장소 (Parquet, ORC)에 Lambda/Kappa 처리 결과 저장
  • 일괄 처리 결과 = 콜드 데이터
  • 실시간 처리 결과 = 핫 데이터
  • ACID 트랜잭션으로 두 경로 간의 데이터 일관성 보장

DAP 위키에서의 활용

dap-wiki-ops-master-plan데이터 흐름 설계에서:

  • 데이터 수집(raw) → 저장(lakehouse) → 처리(ETL) → 분석 파이프라인 설계 시 참고
  • 저장소 선택 기준: 정형 데이터만 → 웨어하우스, 다양한 형식 → 레이크하우스

관련 개념