데이터 아키텍처(Data Architecture)? 쉽게 배워봅시다!
검토 필요
원본 자료 재방문 권장 (이전 valid_as_of: 2023-11-14)
Source: data-architecture-heartcount Type: Article By: Jaden Jung (Heartcount) Valid as of: 2023-11-14
핵심 Takeaway
- 데이터 아키텍처는 조직 내 데이터 수집, 저장, 처리, 관리의 체계적 시스템
- ETL(추출·변환·로드)은 다중 소스 데이터를 표준화하는 3단계 프로세스
- 데이터 저장소는 웨어하우스(정형)와 데이터 레이크(정형/반정형/비정형)로 구분
- 데이터 마트는 부서별 성능·보안·접근권한을 최적화한 웨어하우스 서브셋
- 데이터 원본은 데이터베이스, 애플리케이션 로그, 웹 데이터, IoT 디바이스 등 다양
상세 요약
데이터 원본 (Data Sources)
데이터는 다음과 같은 다양한 채널에서 생성됩니다:
- 트랜잭션 데이터: OLTP 데이터베이스, ERP, CRM 등 애플리케이션
- 외부 데이터: 3자 제공업체, API, 데이터마켓
- 행동 데이터: 웹 서버 로그, 사용자 인터랙션 기록
- 실시간 스트림: IoT 디바이스, 센서 데이터
ETL 프로세스
데이터 통합의 핵심 3단계:
- Extraction (추출): 여러 소스에서 필요한 데이터를 정확하게 취득
- Transformation (변환): 데이터를 원하는 형식으로 변환하고 불필요 요소 제거
- Load (적재): 처리된 데이터를 웨어하우스나 데이터 레이크에 저장
저장 솔루션의 선택
데이터 웨어하우스 (DW)
- 구조화된 정형 데이터 전문
- 안정적 장기 보관 및 분석에 최적
- OLAP 쿼리 성능 우수
데이터 레이크
- 정형/반정형/비정형 데이터 모두 수용
- 이미지, 로그, 비디오 등 다양한 포맷 저장 가능
- 원본 데이터 형태 보존 (스키마 미적용)
데이터 마트
웨어하우스의 특화된 부분집합:
- 특정 부서/팀이 필요한 데이터 추출
- 접근 권한 및 보안 세분화
- 쿼리 성능 최적화
연결되는 위키 페이지
- dap-wiki-ops-master-plan — DAP 위키 데이터 아키텍처 설계