Developing DataStage and QualityStage parallel jobs
Source: IBM IIS 11.7 공식 문서 Type: article By: IBM Valid as of: 2026-04-25
핵심 Takeaway
- DataStage 병렬 잡은 스테이지 단위로 병렬 실행 — 각 스테이지는 이전 스테이지 완료 대기 없이 파이프라인 방식으로 동작
- 스테이지는 7개 카테고리(File·Database·Processing·Data Quality·Restructure·Real Time·Debug)로 체계화
- Transformer 스테이지는 검증·변환·Lookup을 모두 수행하는 DataStage 핵심 범용 스테이지
- Slowly Changing Dimension 스테이지가 SCD 1·2형 차원 테이블 업데이트를 자동화 지원
- 병렬 엔진 설정 파일(configuration file)로 처리·저장·정렬 자원을 지정 — 인프라 레이어와 잡 설계 레이어 분리
상세 요약
병렬 잡 기본 구조
ibm-datastage 병렬 잡은 **스테이지(Stage)와 링크(Link)**로 구성된 그래프다. 스테이지는 데이터 처리 단위이고, 링크는 스테이지 간 데이터 흐름을 정의한다. 병렬 잡은 IBM InfoSphere Information Server 엔진에서 컴파일 후 실행된다.
datastage-parallel-job-architecture 의 핵심 특성: 여러 스테이지가 동시 실행되며, 각 스테이지는 이전 스테이지가 완료될 때까지 기다리지 않고 출력을 읽는다. 이 파이프라인 병렬성이 DataStage 고성능 처리의 기반이다.
스테이지 카테고리 체계
병렬 잡 스테이지는 7개 카테고리로 분류:
| 카테고리 | 주요 스테이지 | 용도 |
|---|---|---|
| File | Sequential File, Data Set, Complex Flat File | 파일 읽기/쓰기 |
| Database | Oracle Enterprise, DB2/UDB, ODBC Enterprise, Teradata | DB 연결 |
| Processing | Transformer, Aggregator, Join, Lookup, Sort, Filter, Funnel, Merge | 핵심 데이터 변환 |
| Data Quality | Investigate, Standardize, Unduplicate Match, WAVES | 데이터 품질 처리 |
| Restructure | Column Export/Import, Combine Records, Promote Subrecord | 구조 재편 |
| Real Time | XML Input/Output, WebSphere MQ, Web Services Client | 실시간 연동 |
| Debug | Peek, Row Generator, Sample, Head/Tail | 개발·디버깅 |
Transformer 스테이지 — 핵심 스테이지
DataStage의 가장 범용적인 스테이지. 다음 세 가지를 단일 스테이지에서 처리:
- 데이터 검증: 조건 기반 레코드 유효성 확인
- 데이터 변환: 형 변환, 값 계산, 파생 컬럼 생성
- Lookup: 참조 데이터와 조회 결합
Transformer 스테이지 변수의 데이터 타입을 예상 결과 타입과 일치시켜 불필요한 타입 변환을 방지하는 것이 성능 최적화의 기본 원칙.
병렬 엔진 설정 파일 (Configuration File)
처리(processing), 저장(storage), 정렬(sorting) 자원을 시스템에서 어떻게 사용할지 지정하는 파일. 이 파일을 통해 잡 설계(스테이지 로직)와 인프라 자원 배분이 분리되어, 잡 재컴파일 없이 실행 환경을 변경할 수 있다.
Slowly Changing Dimension (SCD) 지원
DataStage는 Slowly Changing Dimension 스테이지를 통해 DW의 차원 테이블 업데이트를 자동화한다:
- SCD 1형: 기존 값을 새 값으로 단순 덮어쓰기
- SCD 2형: 이력 보존 — 기존 레코드를 만료 처리하고 신규 레코드 삽입
Balanced Optimization
일부 병렬 잡 성능 향상을 위한 IBM 제공 기법. 배치 데이터 흐름 설계 목표:
- 배치 처리 완료 시간 최소화
- 확장 가능한 잡 구조
- 네트워크·I/O·메모리 최적화
- 잡 동시성 및 병렬도 계획
연결되는 위키 페이지
- ibm-datastage — 이 소스가 다룬 플랫폼 엔티티
- datastage-parallel-job-architecture — 이 소스에서 설명·강화한 핵심 개념