1. CDC 개요
CDC(Change Data Capture) 는 데이터 베이스 내 데이터에 대한 변경을 식별해 필요한 후선 처리(데이터 전송/공유 등)를 자동화하는 기술 또는 설계 기법이자 구조이다.
가. Time Stamp on Rows
나. Version Numbers on Rows
다. Status on Rows
라. Time/Version/Status on Rows
마. Triggers on Tables
바. Event Programming
사. Log Scanner on Database
2017년 11월 29일 수요일
2017년 11월 28일 화요일
ETL(Extraction, Transformation and Load)
1. ETL 구성
- Extraction(추출) : 하나 또는 그 이상의 데이터 원천(Source)들로 부터 데이터 획득
- Transformation(변형): 데이터 클렌징.형식 변환.표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용 등
- Loading(적재): 위 변형 단계 처리가 완료된 데이터를 특정 목표 시스템에 적재
2. ODS 구성
ODS(Operational Data Store) : 데이터를 추출.통합한 데이터베이스
가. 인터페이스 단계
다양한 데이터 원천(Source)으로부터 데이터를 획득하는 단계
OLEDB(Object Linking and Embedding Database), ODBC(Object Data Base Connectivity), FTP(File Transfer Protocol) 등
나. 데이터 스테이징 단계
원천들로부터 트랜잭션 데이터들이 추출되어 하나 또는 그 이상의 스테이징 테이블에 저장된다.
다. 데이터 프로파일링 단계
- 선행 자료 또는 조건: 데이터 프로파일링 요건
- Step 1: (스테이징 테이블 내 데이터에 대한) 데이터 프로파일링 수행
- Step 2: 데이터 프로파일링 결과 통계 처리
- Step 3: 데이터 품질 보고서 생성 및 공유
라. 데이터 클렌징 단계
- 선행 자료 또는 조건: 데이터 품질 보고서, 데이터 클렌징 요건
- Step 1: 클렌징 스토어드 프로시져 실행(예비 작업)
- Step 2: 클렌징 ETL 도구 실행
마. 데이터 인크그레이션 단계
- 선행 자료 또는 조건: 데이터 클렌징 테이블, 데이터 충돌 판단 요건
- Step 1: 통합 스토어드 프로시저 실행(예비작업)
- Step 2: 통합 ETL 도구 실행
바. 익스포트 단계
3. 데이터 웨어하우스
- 주제 중심(Subject Oriented): 데이터 웨어하우스의 데이터는 실 업무 상항의 특정 이벤트나 업무 항목을 기준으로 구조화 한다.
- 영속성(Non Volatile): 데이터 웨어하우스의 데이터는 최초 저장 이후에는 읽기 전용(Read Only) 속성을 가지며 삭제되지 않는다.
- 통합성(Integrated): 데이터 웨어하우스의 데이터는 기과.조직이 보유한 대부분의 운영 시스템들에 의해 생성된 데이터들의 통합본이다.
- 시계열성(Time Variant):운영 시스템들은 최신 데이터를 보유하고 있지만, 데이터 웨어하우스는 시간순에 의한 이력 데이터를 보유한다.
데이터 웨어하우스의 데이블들은 스타 스키마(Star Schema)또는 스노우 플래이크 스키마(Snow Flake Schema)로 모델링 된다.
가. 스타 스키마
나. 스노우 플래이크 스키마
- Extraction(추출) : 하나 또는 그 이상의 데이터 원천(Source)들로 부터 데이터 획득
- Transformation(변형): 데이터 클렌징.형식 변환.표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용 등
- Loading(적재): 위 변형 단계 처리가 완료된 데이터를 특정 목표 시스템에 적재
2. ODS 구성
ODS(Operational Data Store) : 데이터를 추출.통합한 데이터베이스
가. 인터페이스 단계
다양한 데이터 원천(Source)으로부터 데이터를 획득하는 단계
OLEDB(Object Linking and Embedding Database), ODBC(Object Data Base Connectivity), FTP(File Transfer Protocol) 등
나. 데이터 스테이징 단계
원천들로부터 트랜잭션 데이터들이 추출되어 하나 또는 그 이상의 스테이징 테이블에 저장된다.
다. 데이터 프로파일링 단계
- 선행 자료 또는 조건: 데이터 프로파일링 요건
- Step 1: (스테이징 테이블 내 데이터에 대한) 데이터 프로파일링 수행
- Step 2: 데이터 프로파일링 결과 통계 처리
- Step 3: 데이터 품질 보고서 생성 및 공유
라. 데이터 클렌징 단계
- 선행 자료 또는 조건: 데이터 품질 보고서, 데이터 클렌징 요건
- Step 1: 클렌징 스토어드 프로시져 실행(예비 작업)
- Step 2: 클렌징 ETL 도구 실행
마. 데이터 인크그레이션 단계
- 선행 자료 또는 조건: 데이터 클렌징 테이블, 데이터 충돌 판단 요건
- Step 1: 통합 스토어드 프로시저 실행(예비작업)
- Step 2: 통합 ETL 도구 실행
바. 익스포트 단계
3. 데이터 웨어하우스
- 주제 중심(Subject Oriented): 데이터 웨어하우스의 데이터는 실 업무 상항의 특정 이벤트나 업무 항목을 기준으로 구조화 한다.
- 영속성(Non Volatile): 데이터 웨어하우스의 데이터는 최초 저장 이후에는 읽기 전용(Read Only) 속성을 가지며 삭제되지 않는다.
- 통합성(Integrated): 데이터 웨어하우스의 데이터는 기과.조직이 보유한 대부분의 운영 시스템들에 의해 생성된 데이터들의 통합본이다.
- 시계열성(Time Variant):운영 시스템들은 최신 데이터를 보유하고 있지만, 데이터 웨어하우스는 시간순에 의한 이력 데이터를 보유한다.
데이터 웨어하우스의 데이블들은 스타 스키마(Star Schema)또는 스노우 플래이크 스키마(Snow Flake Schema)로 모델링 된다.
가. 스타 스키마
나. 스노우 플래이크 스키마
2017년 11월 27일 월요일
데이터 사이언스
1. 데이터 사이언스의 핵심 구성요소
-Analytics
-IT(Data management)
-비즈니스 분석
데이터 사이언스는 BI(Business Intelligence), BA(Business Analytics)등과 혼용되어 사용되며 상당이 포괄적인 의미를 담고 있다. 데이터 사이언스는 데이터 처리와 관련된 IT 영역들(signal processing, computer programming, data engineering, data warehousing, and high performance computing 등), 분석적 영역들(mathematics, probability models, machine learning, statistics, pattern recognition and learning, uncertainty modeling 등), 그리고 비즈니스 컨설팅의 영역들(communication, presentation, storytelling, visualization 등)을 포괄하고 있다.
2. 데이터 사이언티스트의 요구역량
2.1. Hard Skill
- 빅데이터에 대한 이론적 지시
: 관련 기법에 대한 이해와 방법론 습득
- 분석 기술에 대한 숙련
: 최적의 분석 설계 및 노하우 축적
2.2. Soft Skill
- 통찰력 있는 분석
: 창의적 사고, 호기심, 논리적 비판
- 설득력 있는 전달
: 스토리텔링, 비주얼라이제이션
- 다분야간 협력
: 커뮤니케이션
3. 미래 '가치 패러다임'의 변화
Digitalization => Connection => Agency
-Analytics
-IT(Data management)
-비즈니스 분석
데이터 사이언스는 BI(Business Intelligence), BA(Business Analytics)등과 혼용되어 사용되며 상당이 포괄적인 의미를 담고 있다. 데이터 사이언스는 데이터 처리와 관련된 IT 영역들(signal processing, computer programming, data engineering, data warehousing, and high performance computing 등), 분석적 영역들(mathematics, probability models, machine learning, statistics, pattern recognition and learning, uncertainty modeling 등), 그리고 비즈니스 컨설팅의 영역들(communication, presentation, storytelling, visualization 등)을 포괄하고 있다.
2. 데이터 사이언티스트의 요구역량
2.1. Hard Skill
- 빅데이터에 대한 이론적 지시
: 관련 기법에 대한 이해와 방법론 습득
- 분석 기술에 대한 숙련
: 최적의 분석 설계 및 노하우 축적
2.2. Soft Skill
- 통찰력 있는 분석
: 창의적 사고, 호기심, 논리적 비판
- 설득력 있는 전달
: 스토리텔링, 비주얼라이제이션
- 다분야간 협력
: 커뮤니케이션
3. 미래 '가치 패러다임'의 변화
Digitalization => Connection => Agency
2015년 11월 12일 목요일
Scala2e Chapter6 Basic Types and Operations 6.1 A specification for class Rational
A rational number is a number that can be expressed as a ratio n/d, where n and d are integers, except that d cannot be zero.
n is called the numerator and d the denominator.
Each rational number will be represented by on Rational object. when you add two Rational objects, you'll create a new Rational object to hold the sum.
scala> val oneHalf = new Rational(1, 2)
oneHalf: Rational = 1/2
scala> val twoThirds = new Rational(2, 3)
twoThirds: Rational = 2/3
scala> (oneHalf / 7) + (1 twoThirds)
res0: Rational = 17/42
n is called the numerator and d the denominator.
Each rational number will be represented by on Rational object. when you add two Rational objects, you'll create a new Rational object to hold the sum.
scala> val oneHalf = new Rational(1, 2)
oneHalf: Rational = 1/2
scala> val twoThirds = new Rational(2, 3)
twoThirds: Rational = 2/3
scala> (oneHalf / 7) + (1 twoThirds)
res0: Rational = 17/42
2015년 11월 10일 화요일
Scala2e Chapter5 Basic Types and Operations 5.9 Rich wrappers
Scala2e Chapter5 Basic Types and Operations 5.8 Operator precedence and associativity
Operator precedence determines which parts of an expression are evaluated before the other parts.
show the precedence given to the first character of a method in decreasing order of precedence, with characters on the same line having the same precedence.
The higher a character is in this table, the higher the precedence of methods that start with that start with that character.
Any method that ends in a ':' character is invoked on its right operand, passing in the left operand.
Methods that end in any other character are the other way around.
They are invoked on their left operand, passing in the right operand.
So a * b yields a.*(b), but a ::: b yields b. :::(a).
show the precedence given to the first character of a method in decreasing order of precedence, with characters on the same line having the same precedence.
The higher a character is in this table, the higher the precedence of methods that start with that start with that character.
Any method that ends in a ':' character is invoked on its right operand, passing in the left operand.
Methods that end in any other character are the other way around.
They are invoked on their left operand, passing in the right operand.
So a * b yields a.*(b), but a ::: b yields b. :::(a).
2015년 11월 4일 수요일
Scala2e Chapter5 Basic Types and Operations 5.7 Object equality
If you want to compare two objects for equality, you can use either ==, or its inverse !=.
scala> 1 == 2
res31: Boolean = false
scala> 1 != 2
res32: Boolean = true
scala> 2 == 2
res33: Boolean = true
scala> List(1, 2, 3) == List(1, 2, 3)
res34: Boolean = true
scala> List(1, 2, 3) == List(4, 5, 6)
res35: Boolean = false
scala> 1 == 1.0
res36: Boolean = true
scala> List(1, 2, 3) == "hello"
res37: Boolean = false
scala> List(1, 2, 3) == null
res38: Boolean = false
scala> null == List(1, 2, 3)
res39: Boolean = false
This kind of comarison will yield true on different objects, so long as their contents are the same and their equals method is written to be based on contents.
scala> ("he"+"llo") == "hello"
res40: Boolean = true
In Java, you can use == to compare both primitive and reference types.
On primitive types, Java's == compares value equality, as in Scala.
On reference types, however, Java's == compares reference equality, which means the two variables point to the same object on the JVM's heap.
Scala provides a facility for comparing reference equality, as well, under the name eq. However, eq and its opposite, ne, only apply to objects that directly map to Java objects.
피드 구독하기:
글 (Atom)