페이지

2017년 11월 29일 수요일

데이터 연계 및 통합 기법 요약

1. 데이터 연계 및 통합 유형(동기화 기준)

데이터 연계 및 통합 시 일괄(Batch)작업 또는 비동기식 근접 실시간(Near Real Time)또는 동기식 실시간(Real Time) 방식의 혼요.사용될 수 있다.

일괄 작업 :
- 비실시간 데이터 통합
- 대용량 데이터 대상
- 높은 데이터 조작 복잡성
- 데이터 추출
- 데이터 변형
- 데이터 적재
- CDC(Change data capture)
- 감사 증적
- 웹 서비스/SOA
- 교차 참조
- 데이터 재 처리 허용
- 점대점 데이터 연계
- 자도화 도구 및 자체 개발 SW 혼용

비동기식 실시간 통합
- 근접 실시간(Near Real Time)데이터 통합
- 중간 용량 데이터
- 중간 데이터 조작 복잡성
- 데이터 추출.변형.적재
- CDC(Change data capture)
- Data pooling and DB Streams
- 웹 서비스/SOA
- 감사 증적(audit trail)
- 교차 참조
- 다수 데이터 원천 및 목표 시스템
- 데이터 재 처리 허용
- 자동화 도구 및 자체 개발 SW 혼용

동기식 실시간 통합
- 실시간(Real Time)데이터 통합
- 목표 시스템 데이터 처리 가능시에만 원천 데이터 획득
- 데이터 추출.변형.적재
- 웹 서비스/SOA
- Single transaction integrations
- 단일 트랜잭션 단위 데이터 통합
- 데이터 재처리 불가
- 단일 또는 다수 데이터 원천
- 감사 증적



EAI(Enterprise Application Integration)

1. EAI 개요
EAI(Enterprise Application Integration)는 기업 정보 시스템들의 데이터를 연계.통합하는 소프트웨어 및 정보 시스템 아키텍처 프레임워로서, 기업 또는 기업 간 복수의 이질적 정보 시스템들의 데이터를 연계함으로써 상호 융화 내지 동기화돼 동작하도록 한다.

2. EAI 구현 유형
가. Mediation(intra-communication)
EAI 엔진의 중개자(Broker)로 동작하며, 틀정 정보 시스템 내 데이터 신규 생성 또는 갱신.신규 트랜잭션 완료(Commit)등 유의미한 이벤트 발생을 식별해, 사전 약속된 정보 시스템들에게 그 내용(데이터)을 전달 한다.  Publish/subscribe Model

나. Federation(inter-communication)
EAI 엔진이 외부(고객 또는 파트너)정보 시스템으로부터의 데이터 요청들을 일괄적으로 수령해 필요한 데이터를 전달한다.

3. EAI 기대 효과
- 향후 정보 시스템 개발 및 유지 보수비용 절감 도모
- 기업 업무 정보 시스템들의 지속적 발전 기반 확보
- 협력사.파트너.고객과의 상호 협력 프로세스 연계 발전 기반 확보
-웹 서비스 등 인터넷 비즈니스를 위한 기본 토대

CDC(Change Data Capture)

1. CDC 개요
CDC(Change Data Capture) 는 데이터 베이스 내 데이터에 대한 변경을 식별해 필요한 후선 처리(데이터 전송/공유 등)를 자동화하는 기술 또는 설계 기법이자 구조이다.

가.  Time Stamp on Rows
나.  Version Numbers on Rows
다.  Status on Rows
라.  Time/Version/Status on Rows
마.  Triggers on Tables
바.  Event Programming
사.  Log Scanner on Database

2017년 11월 28일 화요일

ETL(Extraction, Transformation and Load)

1. ETL 구성
- Extraction(추출) : 하나 또는 그 이상의 데이터 원천(Source)들로 부터 데이터 획득
- Transformation(변형): 데이터 클렌징.형식 변환.표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용 등
- Loading(적재): 위 변형 단계 처리가 완료된 데이터를 특정 목표 시스템에 적재

2. ODS 구성
ODS(Operational Data Store) : 데이터를 추출.통합한 데이터베이스

가. 인터페이스 단계
다양한 데이터 원천(Source)으로부터 데이터를 획득하는 단계
OLEDB(Object Linking and Embedding Database), ODBC(Object Data Base Connectivity), FTP(File Transfer Protocol) 등

나. 데이터 스테이징 단계
원천들로부터 트랜잭션 데이터들이 추출되어 하나 또는 그 이상의 스테이징 테이블에 저장된다.

다. 데이터 프로파일링 단계
- 선행 자료 또는 조건: 데이터 프로파일링 요건
- Step 1: (스테이징 테이블 내 데이터에 대한) 데이터 프로파일링 수행
- Step 2: 데이터 프로파일링 결과 통계 처리
- Step 3: 데이터 품질 보고서 생성 및 공유

라. 데이터 클렌징 단계
- 선행 자료 또는 조건: 데이터 품질 보고서, 데이터 클렌징 요건
- Step 1: 클렌징 스토어드 프로시져 실행(예비 작업)
- Step 2: 클렌징 ETL 도구 실행

마. 데이터 인크그레이션 단계
- 선행 자료 또는 조건: 데이터 클렌징 테이블, 데이터 충돌 판단 요건
- Step 1: 통합 스토어드 프로시저 실행(예비작업)
- Step 2: 통합  ETL 도구 실행

바. 익스포트 단계

3. 데이터 웨어하우스
- 주제 중심(Subject Oriented): 데이터 웨어하우스의 데이터는 실 업무 상항의 특정 이벤트나 업무 항목을 기준으로 구조화 한다.
- 영속성(Non Volatile): 데이터 웨어하우스의 데이터는 최초 저장 이후에는 읽기 전용(Read Only) 속성을 가지며 삭제되지 않는다.
- 통합성(Integrated): 데이터 웨어하우스의 데이터는 기과.조직이 보유한 대부분의 운영 시스템들에 의해 생성된 데이터들의 통합본이다.
- 시계열성(Time Variant):운영 시스템들은 최신 데이터를 보유하고 있지만, 데이터 웨어하우스는 시간순에 의한 이력 데이터를 보유한다.

데이터 웨어하우스의 데이블들은 스타 스키마(Star Schema)또는 스노우 플래이크 스키마(Snow Flake Schema)로 모델링 된다.

가. 스타 스키마
나. 스노우 플래이크 스키마


2017년 11월 27일 월요일

데이터 사이언스

1. 데이터 사이언스의 핵심 구성요소

-Analytics
-IT(Data management)
-비즈니스 분석

데이터 사이언스는 BI(Business Intelligence), BA(Business Analytics)등과 혼용되어 사용되며 상당이 포괄적인 의미를 담고 있다. 데이터 사이언스는 데이터 처리와 관련된 IT 영역들(signal processing, computer programming, data engineering, data warehousing, and high performance computing 등), 분석적 영역들(mathematics, probability models, machine learning, statistics, pattern recognition and learning, uncertainty modeling 등), 그리고 비즈니스 컨설팅의 영역들(communication, presentation, storytelling, visualization 등)을 포괄하고 있다.

2. 데이터 사이언티스트의 요구역량

2.1. Hard Skill
- 빅데이터에 대한 이론적 지시
  : 관련 기법에 대한 이해와 방법론 습득

- 분석 기술에 대한 숙련
 : 최적의 분석 설계 및 노하우 축적

2.2. Soft Skill
- 통찰력 있는 분석
 : 창의적 사고, 호기심, 논리적 비판

- 설득력 있는 전달
 : 스토리텔링, 비주얼라이제이션

- 다분야간 협력
 : 커뮤니케이션

3. 미래 '가치 패러다임'의 변화
Digitalization => Connection => Agency