Lakehouse Architecture (레이크하우스 아키텍처)

Key Insight

Lakehouse는 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 차세대 통합 플랫폼. 정형·비정형 데이터 관리, 분석, 머신러닝, AI 개발을 모두 지원.

정의

Lakehouse 아키텍처는 다음 두 시스템의 한계를 극복한 통합 아키텍처입니다(출처: data-management-2026-trends):

Data Lake의 강점: 정형/반정형/비정형 데이터 모두 수용, 낮은 스토리지 비용
Data Lake의 약점: 데이터 거버넌스 부족, 쿼리 성능 저하, 데이터 품질 관리 어려움
Data Warehouse의 강점: 높은 쿼리 성능, 강화된 거버넌스, 데이터 품질 보증
Data Warehouse의 약점: 구조화 데이터만 지원, 높은 운영 비용

아키텍처 구조

저장소 계층 (Storage Layer)

저비용 클라우드 스토리지: Parquet, ORC 등 오픈 포맷
원본 데이터: 정형/비정형 모두 보존
처리 데이터: 정제·변환 후 결과 저장

메타데이터 계층 (Metadata & Governance)

데이터 카탈로그
접근 제어 (Unity Catalog, Snowflake Horizon)
품질 지표 추적

쿼리 계층 (Query & Analytics)

SQL 기반 분석
머신러닝/AI 개발
대화형 탐색

주요 특징

1. 통합 데이터 관리

구조화·비정형 데이터를 하나의 플랫폼에서 관리 (출처: data-management-2026-trends)

2. ACID 트랜잭션

데이터 일관성 보장
동시 접근 제어
실패 복구 능력

3. 스키마 진화 (Schema Evolution)

새로운 컬럼 추가 용이
기존 데이터 호환성 유지
버전 관리

4. 멀티엔진 호환성

Apache Iceberg 같은 오픈 포맷
여러 분석 도구 동시 사용 가능
벤더 종속성 제거

람다(Lambda) vs 카파(Kappa) 아키텍처와의 관계

Lakehouse는 저장소 아키텍처이고, Lambda/Kappa는 처리 패턴입니다. 세 가지의 관계:

람다 아키텍처 (Lambda Architecture) (출처: big-data-architectures-azure)

콜드 경로: 모든 데이터를 원시 형식으로 저장 → 일괄 처리 (Batch View)
핫 경로: 실시간 스트림 처리 (Speed Layer)
서빙 계층: 두 경로의 결과를 병합해 쿼리

특징: 높은 정확도 + 높은 지연 (배치) 과 낮은 지연 + 낮은 정확도 (스트림)의 트레이드오프 해결

카파 아키텍처 (Kappa Architecture) (출처: big-data-architectures-azure)

단일 스트림 경로: 모든 데이터를 이벤트 스트림으로 처리
내결함성 통합 로그: Kafka, Event Hub 같은 메시지 큐
스트림 재생: 필요시 데이터 재처리

특징: 복잡도 감소, 일관성 향상, 하지만 높은 스트림 처리 비용

Lakehouse와의 통합

Lakehouse 저장소 (Parquet, ORC)에 Lambda/Kappa 처리 결과 저장
일괄 처리 결과 = 콜드 데이터
실시간 처리 결과 = 핫 데이터
ACID 트랜잭션으로 두 경로 간의 데이터 일관성 보장

DAP 위키에서의 활용

dap-wiki-ops-master-plan의 데이터 흐름 설계에서:

데이터 수집(raw) → 저장(lakehouse) → 처리(ETL) → 분석 파이프라인 설계 시 참고
저장소 선택 기준: 정형 데이터만 → 웨어하우스, 다양한 형식 → 레이크하우스

JYP Garden

탐색기

Lakehouse Architecture (레이크하우스 아키텍처)

Lakehouse Architecture (레이크하우스 아키텍처)

정의

아키텍처 구조

저장소 계층 (Storage Layer)

메타데이터 계층 (Metadata & Governance)

쿼리 계층 (Query & Analytics)

주요 특징

1. 통합 데이터 관리

2. ACID 트랜잭션

3. 스키마 진화 (Schema Evolution)

4. 멀티엔진 호환성

람다(Lambda) vs 카파(Kappa) 아키텍처와의 관계

람다 아키텍처 (Lambda Architecture) (출처: big-data-architectures-azure)

카파 아키텍처 (Kappa Architecture) (출처: big-data-architectures-azure)

Lakehouse와의 통합

DAP 위키에서의 활용

관련 개념

그래프 뷰

목차