IBM DataStage
Summary
IBM InfoSphere DataStage는 엔터프라이즈급 ETL(Extract-Transform-Load) 플랫폼으로, 대용량 데이터의 추출·변환·적재 파이프라인을 병렬 처리 기반으로 실행한다.
IBM InfoSphere DataStage는 엔터프라이즈급 ETL(Extract-Transform-Load) 플랫폼으로, 대용량 데이터의 추출·변환·적재 파이프라인을 병렬 처리 기반으로 실행한다.
개요
IBM DataStage는 IBM InfoSphere Information Server 제품군의 핵심 컴포넌트다. 병렬 잡(Parallel Job)과 서버 잡(Server Job) 두 가지 실행 모드를 지원하며, 스테이지(Stage) 단위의 데이터 변환을 시각적으로 설계하는 Designer 환경을 제공한다.
DAP(Data Analytics Platform) 환경에서는 DataStage를 ETL 파이프라인 핵심 도구로 사용한다. 소스 시스템에서 데이터를 추출하여 변환하고 Amazon Redshift 등 대상 시스템에 적재하는 워크플로를 담당한다.
DataStage 잡은 스테이지(Stage)와 링크(Link)로 구성된 그래프 형태다. 각 스테이지는 데이터 소스 연결, 변환 로직, 타깃 적재 등을 담당하며 링크로 데이터 흐름이 연결된다.
버전 11.7의 Flow Designer는 컴파일 오류를 스테이지별로 한꺼번에 하이라이트하여 디버깅 효율을 크게 향상시켰다.
주요 사실
- 버전: InfoSphere Information Server(IIS) 11.7 기준 (DAP 운영 환경)
- 실행 모드: 병렬 잡(Parallel Job) · 서버 잡(Server Job) · 잡 시퀀스(Job Sequence)
- 설계 환경: DataStage Designer (클라이언트 도구) / DataStage Flow Designer (웹 기반, 11.7+)
- 병렬 엔진 특성: 컬럼명 규칙이 엄격 — 알파벳·숫자·밑줄만 허용, 숫자 시작 불가, 특수문자 불허
- 알려진 버그: IIS 8.5 이후 단일 문자 컬럼명
t/T사용 시 런타임 검증 abort (출처: datastage-troubleshooting-job-design-issues) - 업그레이드 주의점: Connector Migration Tool 사용 또는 IIS 버전 업그레이드 후 고아 스테이지 문제가 표면화될 수 있음 (출처: datastage-troubleshooting-job-design-issues)
관련 개념
- datastage-job-design-troubleshooting — DataStage 잡 설계 시 빈발하는 오류 유형과 해결 방법
- datastage-parallel-job-architecture — 병렬 잡의 스테이지·링크 그래프 구조 및 스테이지 카테고리 체계
관련 엔티티
- apache-airflow — DAP에서 DataStage 잡 스케줄링을 담당하는 워크플로 오케스트레이터
- ibm-qualitystage — DataStage와 통합 운영되는 데이터 품질 전용 플랫폼