페이지

2017년 11월 28일 화요일

ETL(Extraction, Transformation and Load)

1. ETL 구성
- Extraction(추출) : 하나 또는 그 이상의 데이터 원천(Source)들로 부터 데이터 획득
- Transformation(변형): 데이터 클렌징.형식 변환.표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용 등
- Loading(적재): 위 변형 단계 처리가 완료된 데이터를 특정 목표 시스템에 적재

2. ODS 구성
ODS(Operational Data Store) : 데이터를 추출.통합한 데이터베이스

가. 인터페이스 단계
다양한 데이터 원천(Source)으로부터 데이터를 획득하는 단계
OLEDB(Object Linking and Embedding Database), ODBC(Object Data Base Connectivity), FTP(File Transfer Protocol) 등

나. 데이터 스테이징 단계
원천들로부터 트랜잭션 데이터들이 추출되어 하나 또는 그 이상의 스테이징 테이블에 저장된다.

다. 데이터 프로파일링 단계
- 선행 자료 또는 조건: 데이터 프로파일링 요건
- Step 1: (스테이징 테이블 내 데이터에 대한) 데이터 프로파일링 수행
- Step 2: 데이터 프로파일링 결과 통계 처리
- Step 3: 데이터 품질 보고서 생성 및 공유

라. 데이터 클렌징 단계
- 선행 자료 또는 조건: 데이터 품질 보고서, 데이터 클렌징 요건
- Step 1: 클렌징 스토어드 프로시져 실행(예비 작업)
- Step 2: 클렌징 ETL 도구 실행

마. 데이터 인크그레이션 단계
- 선행 자료 또는 조건: 데이터 클렌징 테이블, 데이터 충돌 판단 요건
- Step 1: 통합 스토어드 프로시저 실행(예비작업)
- Step 2: 통합  ETL 도구 실행

바. 익스포트 단계

3. 데이터 웨어하우스
- 주제 중심(Subject Oriented): 데이터 웨어하우스의 데이터는 실 업무 상항의 특정 이벤트나 업무 항목을 기준으로 구조화 한다.
- 영속성(Non Volatile): 데이터 웨어하우스의 데이터는 최초 저장 이후에는 읽기 전용(Read Only) 속성을 가지며 삭제되지 않는다.
- 통합성(Integrated): 데이터 웨어하우스의 데이터는 기과.조직이 보유한 대부분의 운영 시스템들에 의해 생성된 데이터들의 통합본이다.
- 시계열성(Time Variant):운영 시스템들은 최신 데이터를 보유하고 있지만, 데이터 웨어하우스는 시간순에 의한 이력 데이터를 보유한다.

데이터 웨어하우스의 데이블들은 스타 스키마(Star Schema)또는 스노우 플래이크 스키마(Snow Flake Schema)로 모델링 된다.

가. 스타 스키마
나. 스노우 플래이크 스키마


댓글 없음: