Limit(0): 2017

2017년 12월 30일 토요일

제1절 분석 기획 방향성 도출

분석 기획이란 실제 분석을 수행하기에 앞서 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업

1. 분석 기획의 특징

데이터 분석, 특히 빅데이터에 대한 분석을 수행하는데 있어서 주의할 사항

데이터를 다루는 영역의 특성 때문에, it 기술 및 분석 기법에 치우치는 경향

분석은 분석의 대상(what) 및 분석의 방법(How)에 따라서 그림과 같이 4가지로 나누어진다.

분석의 대상이 무언인지를 인지하고 있는 경우(Known), 즉 해결해야 할 문제를 알고 있고 이미 분석의 방법도 알고 있는 경우 1) 개선을 통한 최적화(Optimization)의 형태로 분석이 수행

방법을 모르는 경우에는 해당 분석 주제에 대한 2) 솔루션(Solution)을 찾아내는 방식으로 수행

분석의 대상이 명확하게 무엇인지 모르는 경우(Un-known)에는, 기존 분석 방식을 활용하여 새로운 지식인 3) 통찰(Insight)을 도출해냄으로써 문제의 도출 및 해결에 기여

4) 발견(Discovery) 접근법으로 분석의 대상 자체를 새롭게 도출

특정한 분석 주제를 대상으로 진행할 경우에도, 분석 주제 및 기법의 특성상 이러한 4가지의 유형을 넘나들면서 분서글 수행하고 결과를 도축하는 과정을 반복하게 된다. 문제및 방법을 인지하고 있는 "개선을 통한 최적화" 유형의 분석 주제로 만제를 잡근했지만, 새로운 유형의 주제를 "발견"하거나, 새로운 "솔루션"을 도출하게 되는 경우가 자주 발생한다.

또한, 목표 시점 별로는 당면한 과제를 빠르게 해결하는 "과제 중심적인 접근 방식" 과 지속적인 분석 내재화를 위한 "장기적인 마스터 플랜 방식"으로 나누어 볼 수 있다. 과제 단위로는 진행되는 프로젝트는 문제에 대한 명확한 해결을 위해서 Quick-Win 방식의 데이터 분석을 수행하는 것이 특징이다. 개별 과제의 경우에는 이러한 Quick-Win 방식으로 과제를 수행해도 무방하지만 지속적으로 데이터 붆석 문화를 내재화하기 위해서는 전사적이고 장기적인 관점에서 분석 과제를 도출하고 해당 과제를 수행하는 것이 바람직하다.

문제 해결(Problem Solving)을 위한 단기적인 접근방시과 분석과제정의(Problem Definition)를 위한 중장기적인 마스터플랜 접근 방식은 융향적으로 적용하는 것이 분석기획에서는 중요하다. 마스터픞랜을 수립하고 장기적인 관점에서 접근하는 것이 가장 바람직하지만, 분석의 가치를 증명하고 이해관계자들의 동읟를 구하기 위해서는 분석을 통해서 해결할 수 있는 해묵은 과제를 빠르게 해결해서 분석의 가치를 조기체험함으로써 공감대를 확산시키는 방식도 유용하다.

의미있는 분석을 하기 위해서는 분석 기술, IT 및 프로그래밍, 분석 주제에 대한 도메인 전문성, 의사소통이 중요하고분석 대상 및 방식에 따른 다양한 분석 주제를 과제 단위 혹은 마스터 플랜 단위로 도출할 수 있어야 한다. 분석가는 3가지의 기본 역량에 더하여 프로젝트 관리(Project Management)역량, 리더쉽(Leadership) 역량 등이 필요

2. 분석 기획 시 고려사항

1) 가용한 데이터

2) 적절한 유스케이스

3) 분석과제 수행

첫째, 분석의 기본이 되는 데이터에 대한 고려가 필요, 분석을 위한 데이터의 확보가 우선 필요적이며 데이터가 존재하는 경우에도 데이터의 유형에 따라서 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 한다.

둘째, 분석을 통해서 가치가 창출될 수 있는 적절한 활용 방안과 활용 가능한 유스케이스 타색이 필요.

"바뀌를 재 발명하지 마라"는 결언처럼 기존에 잘 구현되어서 활용되고 있는 유사 분석 시나리오 및 솔루션이 있다면 이를 최대한 활용하는 것이 중요하다. 이러한 시나리오를 토대로 소통할 때 분석 결과를 활용할 사용자의 측면에서 공감대를 얻고 원활한 분석 수행에 도움이 될 것이다.

끝으로 분석을 수행암에 있어서 발생하는 장애요소들에 대한 사전 계획 수립이 필요하다. 정확도를 올리기 위해서는 기간과 투입 리소스가 늘어나게 되는데 이것은 비용 상승으로 이어질 수 있으므로 많은 고려가 필요하다. 좋은 분석 결과를 도출하여도 분석가만 이해할 수 있는 형태의 결과가 아닌 사용자가 쉽게 이해하고 활용할 수 있도록 방안을 수립해야 한다. 그리고 부석 수행 시에는 문제 없이 실행되던 분석 결과가 실제 환경에서는 성능에 문제가 발생할 수 있으므로 이러한 부분에 대해서도 고려가 필요하다. 또한 이회성 분석으로 그치지 않고 조직의 역량으로 내재화하기위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리(Change Management)가 고려되어야 한다.

2017년 12월 28일 목요일

9 배열

- 배열 만들기

import Cocoa
var bucketList: Array

import Cocoa
var bucketList: [String]

배열 초기화하기
import Cocoa
var bucketList : [String] = ["Climb Mt. Everest"]

타입 추론 사용하기
import Cocoa
var bucketList = ["Climb Mt. Everest"]

- 배열 액세스하기와 수정하기

8 옵셔널

- 옵셔널 타입
nil이 될 수도 있는 인스턴스는 반드시 옵셔널 타입으로 선언
옵셔널 타입으로 선언되지 않은 인스턴스는 nil이 되지 못한다.

- 옵셔널 바인딩
어떤 옵셔널에 값이 있는지 판단할 수 있는 유용한 패턴
if let temporaryConstant = anOptional{
// temporaryConstant로 어떤 일을 한다
} else {
// anOptional에는 값이 없다. 즉, anOptional은 nil이다.
}

import Cocoa

var errorCodeString: String?
errorCodeString = "404"

if let theError = errorCodeString {
print(theError)
}

- 암묵적으로 언래핑된 옵셔널(implicitly unwrapped)

import Cocoa
var errorCodeStrig: String!
errorCodeString = "404"
print(errorCodeString)
여기서 옵셔널은 암묵적 언래핑을 나타내는 !가 붙어 선언되었다. 그리고 암묵적으로언래핑핀 오셔널을 사용한다는 것은 옵셔널을 명시적으로 언래핑하여 사용하는 것보다 훨씬 더 강한 확신, 즉 값이 있다는 확신의 방증이므로 조건문도 과감하게 없앴다.

- 옵셔널 체이닝(optional chaining)
옵셔널 바인딩처럼 어떤 옵셔널에 값이 있는지 판단

import Cocoa

var errorCodeString : String?
errorCodeString = "404"
var errorDescription: String?
if let theError = errorCodeString, let errorCodeInteger = Int(theError), errorCodeInteger == 404 {
errorDescription = "\(errorCodeInteger + 290): resource was not found."
}

var upCaseErrorDescription = errorDescription?.uppercased()
errorDescription

- 옵셔널을 준비된 상태로 수정하기
새 변수나 상수를 만들지 않아도 되도록 옵셔널을 준비된 상태(in place)로 수정할 수도 있다. 다음처럼 upCaseErrorDescription에 append(_:) 메소드를 호출한다.

...
upCaseErrorDescription?.append( "PLEASE TRY AGAIN.")
upCaseErrorDescription

옵셔널에 값이 있을 때는 텍스트를 추가만 하면되고, 값이 없다면 할 일도 없는 것이다.

- nil 결합 연산자
옵셔널을 처리할 때는 (옵셔널에 값이 있을 때) 값을 가져오거나 옵셔널이 nil일때 기본값을 사용하는 것이 일반적이다. 이를테면 errorDescription에 담긴 오류 정보를 가져올 때 문자열에 오류가 없다면 "No error"라는 기본값을 사용할 수 있다. 이때 필요한 것이 옵셔널 바인딩이다.

let description : String
if let errorEscription = errorDescription{
description = errorDescription
} else {
description = "No error"
}

nil 결합 연산자 사용하기
let description = errorDescription ?? "No error"
??의 왼쪽에는 옵셔널이 와야한다.왼쪽 옵셔널이 nil이면 ??는 오른쪽 값을 리턴한다. 왼쪽 옵셔널이 nil이 아니면 옵셔널에 포함된 값이 리턴된다.

2017년 12월 26일 화요일

6. 루프

- for-in 루프

import Cocoa

var myFirstInt : Int =0

for i in 1...5 {
myFirstInt += 1
myFirstInt
print(myFirstInt)
}

루프를 작성하겠다고 알리는 키워드가 for다. 그 뒤로 이터레이터 i가 선언되었는데, 루프의 현재 반복 횟수를 나타내는 이터레이터(iterator)는 루프 안에서 일정한 값을 보이며, 루프 안에서만 존재한다.

- where

for i in 1...100 where i % 3 == 0 {
print(i)
}

타입 추론

for i in 1...5 {
myFirstInt += 1
print("myFirstInt equals \(myFirstInt) at iteration \(i)")
}

- while 루프

var i = 1
whle i < 6 {
myFirstInt += 1
print(myFirstInt)
i += 1
}

- repeat-while 루프
repeat-while 루프는 루프를 적어도 한 번 실행하고 조건을 판단한다.

repeat{
print("Fire blasters!")
} while shields > 0

제어권 전달문, 다시 보기

continue 사용하기

....
var shields = 5
var blastersOverheating = false
var blasterFireCount = 0
var spaceDemonsDestroyed = 0

while shields > 0 {

if spaceDemonsDestoyed == 500 {
print("You beat the game!")
break
}

if blastersOverheating {
print("Blasters are overheated! Cooldown initiated.")
sleeep(5)
print("Blasters ready to fire")
sleep(1)
blastersOVerheating = false
blasterFireCount = 0
}

if blasterFireCount > 100 {
blastersOverheating = true
continue
}

print("Fire blasters!")

blasterFireCount += 1
spaceDemonsDestroyed += 1

}

2017년 12월 25일 월요일

5. switch

import Cocoa

var statusCode: Int = 404
var errorString: String = "The request failed:"
switch statusCode {
case 400, 401, 403, 404:
errorString = "There was something wrong with the request."
fallthrough
default:
errorString += " Please review the request and try again."
}

fallthrough라는 제어권 전달문(control transfer statement)
어떤 방향으로 진행되던 실행 흐름을 바꿀 수 있다.
fallthrough 는 현재 case 가 가지고 있는 제어권을 바로 아래 case로 '전달하라'고 switch에 알린다.
다시 말해 statusCode와 일치하는 case에 fallthrough제어권 전달문이 있으면(일반적으로 case 맨 아래 fallthrough를 둠)우선 이 case 코드가 실행되고, 제어권이 현재 case를 '통과하여' 바로 아래 case로 넘어간다. 이 바로 아래 case 는 대조할 값과 일치하든 일치하지 않든 해당 코드가 ㅁ조건 실행된다.

- 구간
valueX...valueY : 대조할 값을 어떤 구간으로 설정

...라는 구간 대조(range matching)

- 값 바인딩

where

튜플과 패턴 대조
statusCode와 errorString은 논리적 연관성을 가지고 있다.
논리적 연관성을 드러낼 수 있도록 한 군데에 저장할 수 있다면 여러모로 유용할 것이다. 튜플(tuple)을 사용하는 이유가 이 때문이다.

튜플은 논리적 연관성이 있는 둘 이상의 값을 한데 묶은 일종의 유한 집합이다. 논리적 연관성의 유무를 판단하는 일은 물론 프로그래머의 몫이다. 튜플을 사용하면 서로 다른 값들이 하나의 복합 값으로 묶이는데, 묶어 놓은 결과는 순서 리스트의 구조를 보인다.

import Cocoa

var satusCode : Int = 418
var errorString: String = "The request failed with the error:"

switch statusCode {
case 100, 101:
errorString += " Informational, \(statusCode)."
case 204;
errorString += " Successful but no content, 204."
case 300...307:
errorString += " Redirection , \(statusCode)."
case 400...417:
errorString += " Client error, \(statusCode)."
case 500...505:
errorString += " Server error, \(statusCode)."
case let unknownCode where (unknownCode >= 200 && unkonCode < 300)
|| unKnownCode > 505:
errorString = "\(unkownCode) is not known error code."
default:
errorString = "Unexpected error encountered."
}

let error = (statusCode, errorString)

튜플요소에 이름 지정하기
let error = (code: statusCode, error: errorString)
error.code
error.error

이렇게 하면 튜플 요소에 그 이름으로, 즉 statusCode는 code로 errorString은 error로 액세스할 수 있다. 오른쪽 사이드바에도 이전과 같은 결과가 출력될 것이다.

튜플을 사용하는 패턴 대조

....
let error = (code: statusCode, eorr: errorString)
error.code
error.error

let firstErrorCode = 404
let secondErrorCode = 200
let erorCodes = (firstErrorCode, secondErrorCode)
switch errorCodes{
case (404, 404):
print("No items found.")
case (404, _):
print("First item not found.")
case (_, 404):
print("Second item not found.")
default:
print("All items found.")
}

- switch vs. if/else

.... let age = 25

if case 18...35 = age {
print("Cool demographic")
}

여러 조건이 담긴 if-case
...
let age = 25
if case 18...35 = age, age >=21 {
print("In cool demographic and of drinking age")
}

인공지능 레벨4

레벨1: 단순한 제어 프로그램을 '인공지능'이라고 칭하고 있다.
마케팅적으로 '인공지능'즉 'AI'라고 지칭하는 것이며, 지극히 단순한 제어 프로그램을 탑재하고 있는 전자 제품을 '인공지능 탑재' 등이라고 부르는 경우

레벨2: 고전적인 인공지능:
행동의 패턴이 지극히 다채로운 경우에서의 지능을 말한다. 장기 프로그램이나 청소 로봇 혹은 질문에 대답하는 인공지능 등이 이에 해당된다.

레벨3: 기계학습을 받아들인 인공지능:
검색 엔진에 내장되어 있거나 빅데이터를 바탕으로 자동적으로 판단하는 인공지능이다.
추론의 구조나 지식 베이스가 데이터를 바탕으로 학습하는 것으로 전형적으로 기계학습의 알로리즘이 이용되는 경우가 많다. 기계학습이라는 것은 표본이 되는데이터를 바탕으로 규칙이나 지식을 스스로 학습하는 것이다. 이 기술은 패턴 인식이라는 과거부터의 연구를 기초로 1990년대부터 진행되어 2000년대에 들어와 빅데이터 시대를 맞이하면서 더욱 진화하고 있다.

레벨4: 딥러닝을 받아들인 인공지능
기계학습을 할 때의 데이터를 나타내기 위해서 사용되는 입력값input(특징feature 이라고 불린다) 자체를 학습하는 것이 이

2017년 12월 23일 토요일

4장. 수

4.1. 정수
macOS에서 Int 는 64비트
iOS 에서 아이폰 5s, 아이패드 에어, 아이패드 미니 레티나 디스플레이브터 64비트 채용
그전 기기들에서는 32비트 아키텍처가 적용

스위프트에서는 크기를 분명하게 밝힌 정수 타입도 제공, Int32 는 32비트 부호 있는 정수 타입니다.

Int32, Int8, Int64, UInt, UInt16, ..., UInt64

- 정수의 연산

- 다른 정수 타입으로 전환하기

- 부동소수점수(floating-point number)
32비트 부동소수저민 Float 와 64비트 부동소수점인 Double

2017년 12월 22일 금요일

2. Swift 프로그래밍 기초

2.1. Xcode 에서 Swift 프로젝트 작성 및 플레이그라운드

- Foundation

프로그램 개발에 꼭 필요하고 기본이 되는 프레임워크

문자, 스트링, 숫자, 메모리 관리 등 프로그래밍 시 사용되는 기본 기능 포함.

import Foundation

2.2. Swift 기본 데이터형

Int, Float, Double, Character, Bool

2.3. 사칙연산 처리

2.4. 반복문 - while 문장

2.5. 반복문 - for 문장

2.6. if 문장, switch 문장

2.7. 문자열 배열

2.8. 숫자 배열

2.9. 딕셔너리(Dictionary)

2.10. 함수 생성 및 호출

2.11. 옵셔널(Optionals)기능

2.12. 클래스 생성 및 초기화

제 3절 클라우드 인프라 기술

클라우드 컴퓨팅은 동적으로 확장할 수 있는 가상화 자원들을 인테넷으로 서비스할 수 있는 기술
클라우드 서비스 유형
-SaaS(Software as a Service)
-PaaS(Platform as a Service)
-IaaS(Infrastructure as a Service)

VMware나 Xen과 같은 서버 가상화 기술은 데이터센터나 기업들에게 인프라스크럭처를 위한 클라우드 서비스의 가능성을 보여주고 있다.

아마존 S3(Simple Storate Service), EC2(Elastic Cloud Computing) 화녁을 제공함으로써 플랫폼을 위한 클라우드 서비스를 최초로 실현
구글 AppEngine, Apps, Gears, Gadgets 등을 제공함으로써 휍기반의 다양한 소프트웨어들이 클라우드 서비스로서 구체화

서버 가상화 기술: 물리적인 서버와 운영체제 사이에 적절한 계층을 추가해 서버를 사용하는 사용자에게 물리적인 자원은 숨기고 논리적인 자원만을 보여주는 기술
여러개의 애플리케이션, 미들웨어, 운영체제들이 서로 영향을 미치지 않으면서 동시에 사용할 수 있음.

서버 가상화 기술 효과
- 가상머신 사이의 데이터 보호
- 예측하지 못한 장애로부터 보호
- 공유 자원에 대한 강제 사용의 거부
- 서버 통합
- 자원 할당에 대한 증가된 유연성
- 테스팅
- 정확하고 안전한 서버 사이징
- 시스템 관리

가. CPU 가상화
하이퍼바이저(Hypervisor)는 물리적 서버 위에 존재하는 가상화 레이어를 통해 운영체제가 수행하는데 필요한 하드웨어 환경을 가상으로만들어 준다. 엄격하게 구분할 경우에는 차이가 있지만, 일반적으로 가상머신(Virtual machine)을 하이퍼바이저라고 할 수 있다. 하이퍼바이저가 서버 가상화 기술의 핵심으로 x86계열 서버 가상화에서는 소프트웨어 기반으로 하이퍼바이저를 구성한다. 하이퍼바이저를 통해 사용자는 추가 하드웨어 구입 없이 새로운 운영체제의 설치, 애플리케이션의 테스팅 및 업그레이드를 동일한 물리적 서버에서 동시에 수행할 수 있다.
하이퍼바이저는 VMM(Virtual Machine Monitor)이라고도 하며, 다음과 같은 기능을 수행

- 하드웨어 환경 에뮬레이션(Emulates a complete hardware environment)
- 실행환경 결리(Isolate execution in each VM)
- 시스템 자원 할당(Allocates platform resources-processing, memory, I/O, storage)
- 소프트웨어 스택 보존(Encapsulates software stacks including the OS and state information)

가상화를 제공하는 하이퍼바이저가 물리적인 하드웨어 또는 호스트 운영체제와의 관계에서 어디에서 위치하는지에 따라 베어메탈(Bare-metal) 하이퍼바이저와 호스트 기반(Hosted) 하이퍼바이저로 나뉠수 있다.

베어메탈 하이퍼바이저
반가상화(Para Virtualization), 완전가상화(Full Virtualization)

가상 머신 내에서도 운영체제가 필요하고 이 운영체제는 Ring 0 의 권한을 필요하게 된다. 가상머신의 운영체제가 응용 애플리케이션 권한(Ring 3)으로 수행될 경우 x86아키텍처에서는 복잡한 문제가 발생한다. Ring 3에서 수행된 가상머신 운영체제에서 Ring 0 수준의 명령을 호출하면 가상화를 지원하는 계층에서 이를 Ring 0 수준의 명령어도 다시 변환해 실행해야 하ㅕ, 이를 위해 가상화 지원 계층은 받으시 Ring 0 레벨(Intel VT-x, AMD-V에서는 Ring -1)로 수행되어야 한다.
x86 아키텍처에서 가상화 기술의 핵심은 가상머신이 요청하는 privileged 명령어를 어떻게, 어떤 계층에서 처리 하느냐이다. 가상화의 용어 중 완전가상화(Full Virtualization), 반가상화(Para Virtualization)라는 용어도 privileged 명령어를 어떻게 처리하느냐를 기준으로 분류한 것이다.

- 완전가상화
완전가상화(Full Virtualization)는 CPU뿐만 아니라 메모리, 네트워크 장치 등 모든 자원을 하이퍼바이저가 직접 제어.관리하기 때문에 어떤 운영체제라도 수정하지 않고 설치가 가능한 장점이 있다. 하지만 하이퍼바이저가 자원을 직접 제어하기 때문에 성능에 영향을 미친다. 또한 자원들이 하이퍼바이저에 너무 밀접하게 연관돼있어 운영중인 게스트 운영체제에 할당된 CPU나 메모리 등의 자원에 대한 동작변경 작업이 단일 서버 내에서는 어렵다. 자원에 대한 동적변경을 하기 위해서는 VMware의 VMotion과 같은 솔루션의 도움을 받아야 한다.

완전가상와는 하이퍼바이저보다 우선쉰위가 낮은 가상머신에서는 실행되지 않는 privileged 명령어에 대해서 trap을 발생시켜 하이퍼바이저에서 실행하는 방식으로, MS 원도우와 같은 Guest OS가 하이퍼바이저상에서 변경되지 않은 상태로 실행될 수 있는 장점이 있으나 Para Virtualization에 비해 속도가 느리다. VMware ESX Server, MS Virtual Server 등의 제품이 완전 가상화 기반 솔루션이다.
초기 Xen에서는 완전가상화를 지원하지 않았지만, 최근 Intel VT, AMD-V환경에서 완전가상화를 지원하고 있다.

-하드웨어 지원 완전가상화
Intel VT-x, AMD-V CPU의 하드웨어에서제공하는 가상화 기능을 이용
가상머신에서 메모리와 CPU등의 하드웨어에 명령을 내릴 수 있는 반가상화 수준의 성능 발휘

CPU 에 Ring -1 계층이 추가
하이퍼바이저는 Ring -1에서 수행 가상머신 운영체제(Guest OS)는 Ring 0 에서 수행되어 privileged 명령어에 대해 추가로 변환 과정이 필요 없다.
하이퍼바이저를 거쳐 바로 하드웨어로 명령이 전달돼 빠른 성능 보장

하드웨어 지원 가상화를 사용하는 경우 CPU 사용률이 폰아진다. 특히 I/O나 메모리를 많이 사용하는 경우 CPU 사용률이 높아진다. 따라서 서버 통합을 목적으로 하는 경우 비효율적 있수도 있다.

- 반가상화
반가상화(Para Virtualization)는 privileged명령어를 게스트 운영제에서 hypercall로 하이퍼바이저에 전달하고, 하이퍼바이저는 hypercall에 대해서 privilege레벨에 상관없이 하드웨어로 명령을 수행시킨다.
Hypercall은 게스트 운영체제에서 요청을 하면 하이퍼바이저에서 바로 하드웨어 명령을 실행하는 call 을 말한다.
게스트 운영체제가 hypercall을 요청하기 위해서는 케스트 운영체제의 일부분이 수정 되어야 하며, Xen 기반의 리눅스 운영체제의 경우 20% 정도 커널이 수정되었다고 한다. 수정된 게스트운영체제는 CPU나 메모리와 같은 자원에 대한 직접적인 제어권을 가짐으로써 자원의 변화와 같은 동적 가상화 환경에 유연하게 적응할 수 있다. 따라서 반가상화 기반에서는 CPU와 메로리 자원의 동적 변경이 서비스의 중단 없이 이루어질 수 있으며, 완전가상화에 대해 성능이 뛰어나다. 반가상화는 privileged명령어를 직접 호출(hypercall)하므로 속도는 빠르나 커널을 변경해야 하고, 완전가상화는 dynamic binary translation(Xen은 emulation)모듈과의 통신을 통해 처리하므로 속도는 느리나 커널 변경이 없다. Vmware와 같은 상용 솔루션은 완전가상화와 반가상화의 장단잠을 보완해 아키텍처, 기능, 성능 등에서 뚜렷한 차이가 없다.
기존 VMware에서는 반가항화를 지원하지 않았지만 VMI(Virtual Machin Interface)라는 인터페이스를 제시하고, 이 인터페이스를 준수하는 모든 게스트 운영체제를 지원하는 방식으로 반가상화를 지원하고있다. VMI는 아직 정식 표준으로 채택되지 않았지만 리눅스 진영에서도 도입하려는 움직임이 나타나고 있다.

- Monolithinc vs. Microkernel
하드웨어에 대한 드라이버가 어느 계층에 있느냐에 따라 Monolithinc 방식과 Microkernel방식으로 구분
가상머신이 I/O를 위해 하드웨어에 접근할 때 사용하는 드라이버를 하이퍼바이저 계층에서 모두 갖고 있는 방식을 Monolithic이라고 한다.
각 가상머신에서 드라이버를 갖는 방식을 Microkernel이라고한다.
__________________________________________________________________________
그림은VMware의 경우 하이퍼바이저가 드라이버를 작고 있으며 모든 I/O 요청은 하이퍼바이저가 수행함을 보여준다.
Xen에서 하이퍼바이저는 드라이버가 없으며 호스트 운영체제가 드라이버를 가지고 있고 각 게스트 운영체제는 가상 드라이버를 가지고 있어 I/O 요청을 위해서는 호스트 운영체제를 거쳐야 한다. 게스트와 호스트 운영체제는 서로 격리되어 있기 때문에 하이퍼바이저(또는 VMBus)를 이요해 요청을 주고 받는다.

Monolithin 방식은 성능은 조금 향상될 수 있지만 하이퍼바이저에서 모든 드라이버를 가기ㅗ 있어야 하기 때문에 하드웨어가 추가되거나 드라이버가 업데이트 되는 경우 하이퍼바이저가 수정되어야 하고 더 많은 코드를 가지고 있기 때문에 장애가 발생할 가능성도 높다. Microkernel 방식의 경우 속도는 조금 느려지지만 하이퍼바이저 계층이 간단하여 드라이버 업데이트나 하드웨어 추가에 따른 하이퍼바이저 변경이 필요없으며, 장애 발생 확률이 훨씬 낮다.

하이퍼바이저 기반 가상화 기술비교
구분 완전가상화 완전가상화 반가상화
(CPU 기술 이용 안함) (CPU 기술 이용)
사용기술 바이너리 변환, Direct Privileged Instruction은 수정된 OS 사용
Execution Ring -1로 처리됨
게스트 OS 게스트 OS 변경 없음, 게스트 OS 변경이 필요 Hypercall을 가능하도록
변경/호환성 호환성이 뛰어남 없음/호환성 뛰어남 게스트 OS 변경함/
(단 CPU가 지원해야 함) 호환성이 안 좋음
성능 Fair(점점 Binary
좋음 Translation 방식의 성능에 특정 경우에 더 좋음
근접해 가고 있음)
제품 VMware, Microsoft, VMware, Microsoft, VMware, Xen
Parallels Parallels, Xen
게스트 OS가 독립적임 독립적임 Xen Para Virtualization은
하이퍼바이저에 Xen 하이퍼바이저에서만 동작,
독립적인가? VMI 규격을 따르는
VMI-Linux는 하이퍼바이저에
독립적임

-호스트 기반 가상화(Host based virtualization)
완전한 운영체제가 설치되고 가상화를 담당하는 하이퍼바이저가 호스트 운영체제 위에 탑재되는 방식이다. 다른 가항화 환경에 비해 성능은 물론 자원 관리 능력 측면에서도 제약 사항이 많은 편이다. 가장 큰 단점은 단일 운영체제의 취약성에 있다. 예를 들어 호스트 운영체제 레벨에서 보안 이슈가 발생할 경우 전체 게스트 운영체제의 신뢰성에도 문제가 발생할 수 있다. 호스트 기반가상화의 대표 사례로는 VMware, Workstation, Microsoft Virtual PC 등이 있다.

______________________________________________________________________
주로 테스트 환경에서 많이 사용되었으며 최근에는 맣이 사용하지 않는다, 하지만 기존 레거시 애플리케이션 중 아주 오래된 하드웨어와 그 하드웨어를 지원하는 특정 운영체제에서만 수행되어야 하는 애플리케이션을 가상화 기반에서 운영하는 경우에 사용할 수 있다.

-컨테이너 기반 가상화(Container based virtualization)
호스트 운영체제 위에 가상의 운영체제를 구성하기 위한 운영 환경 계층을 추가하여 운영체제만을 가상화한 방식.
운영체제만을 가상화 대상으로 하므로 전체 하드웨어를 대상으로 하는 하이퍼바이저 기반 가상화 방식에 비해 훨씬 적게 가상화 한다. 결과적으로 한 대의 서버에서 더 많은 컨테이너를 실행할 수 있다. 컨테이너 기반 가상화 방식에서 가상화를 지원하는 계층을 하이퍼바이저라고 하지 않으며, 가상 운영환경(Virtual server enviroment)라고 부른다.

컨테이너 기반 가상화는 가상화 수준이 낮기 때문에 다른 방식에 비해 빠른 성능을 보여주지만, 자원간 격리 수준이 낮아 하나의 가상 운영체제에서 실행되는 애플리케이션의 자원 사용에 따라 다른 가상 운영체제가 영향을 받는 단점이 있다.
또한 호스트 운영체제의 보안 취약성에 의해 모든 가상 운영체제에 문제가 발생할 수 이으며, 호스트 운영체제를 공유하기 때문에 호스트 운영체제의 문제가 전ㅊ 가상 운영체제에서도 영향을 미치게 된다.
컨테이너 기반 가상화는 오픈소스 진영의 OpenVZ와, OpenVZ를 사용화한 Virtuozzo, Solaris Containers, Linux-VServer등

하이퍼바이저 기반 가상화와 컨테이너 기반 가상화 비교

구분 하이퍼바이전 기반(Full, Para) 컨테이너 기반
하드웨어 독립성 가상머신 내에서 완전 독립 호스트 OS사용
OS 독립성 호스트 OS와 완전 독립(리눅스와 원도우 호스트와 게스트 동일
머신 동시 사용)
격리수준 높은 격리 수준 낮은 격리 수준
성능 높은 오버헤드 발생 오버헤드 거의 없음,
성능 향상을 위해 HW 가상화 기술 병행 HW 자원의 대부분을 활용
관리 가상머신 별로 별도 관리 공통 SW 중앙 집중식 관리
응용분야 이기종 통합(윈도우와 리눅스 혼합 환경) 단일 OS환경 자원 통합,
대규모 호스팅 업체
대표제품 VMware ESX, MS Virtual Server Virtuozzon(상용, OpenVZ-공개)
Xen(Para Virtualization) Sun Solaris Container

나. 메모리 가상화(VMware기법)
운영체제는 메모리를 관리하기 위해 물리주소(Physical Address)와 가상주소(Virtual Address), 이 두가지를 사용
물리주소는 0부터 시작해서 실제 물리적인 메모리 크기까지를 나타내고, 가상주소는 하나의 프로세스가 가리킬 수 있는 최대 크기를 의미하며 32비트 운영체제에서는 4GB까지 사용가능
프로그램에서의 주소는 물리적인 메모리의 주소 값이 아닌 가상주소 값이다.
따라서 가상주소 값의 위치(VPN, Virtual Page Number)를 실제 물리적인 주소 값 위치(MPN, Machine Page Number)로 매핑 과정이 필요하며 page table을 이용 매핑 연산을 하드웨어적으로 도와주는 것을 TLB(Translation lookaside buffer)라고 한다.
VMware의 하이퍼바이저의 핵심 모듈을 VMKernel이라고 한다. VMkernel은 Service Console, 디바이스 드라이버들의 메모리 영역을 제외한 나머지 전체 메모리 영역을 모두 관리하면서 가상머신에 메모리를 할당한다. 생성되는 가상머신은 자신에게 할당되 메모리들을 연속된 공간의 실제 물리적인 메모리로 인식하게 된다.

VMware는 하이퍼바이저 내에 Shadow Page Table을 별도로 두어 가상 메모리 주소와 물리 메모리 주소의 중간 변환 과정을 가로챈다. 이 테이블은 마치 연속된 빈 공간의 메모리가 실제 존재하는 것처럼 게스트 운영체제에서 매핑해주는 역할을 하며, 동시에 개발적인 모든 가성머신들이 자신만의 메모리 주소 공간을 갖도록 한다.

- Memory ballooning
VMKernel은 예약된 메모리보다 더 많은 메모리를 사용하는 가상머신의 메모리 영역을 빈 값으로 강제로 채워 가상머신 운영체제가 자체적으로 swapping하도록 한다. 가상머신 운영체제에서 보이는 물리적인 메모리(실제는 하이퍼바이저에서 제공한 논리적 메모리)가 채워지고 있다는 것을 감지한 가상머신 운영체제는 swap파일에 메모리 영역을 page out 시키고 메모리를 비우게 된다. 하이퍼바이저는 page out 된 메모리 영역을 다른 가상머신에 할당한다.

- Transparent page sharing
하나의 물리적인 머신에 여러 개의 가상머신이 운영되는 경우 각 가상머신에 할당된 메모리 중 동일한 내용을 담고 있는 페이지는 물리적인 메모리 영역에 하나만 존재시키고 모든 가상머신이 공유하도록 한다.

- Memory Overcommitment
2GB 메모리를 가진 물리적 장비에 512MB를 Minimum reserved를 가질 수 있는 가상머신 5개를 수행할 수 있다. 이것은 앞서 설명한 두 가지 기법을 이용하여 가능하지만, 모든 가상머신이 메모리 사용이 많은 업무를 수행하는 경우라면 심각한 성능저하 현상이 발생할 수 있기 때문에 권장하지 않는다.

다. I/O 가상화
-가상 이더넷
대표적인 I/O 가상화 기술의 하나로 가상화 기능 중에서 물리적으로 존재하지 않는 자원을 만들어 내는 에뮬레이션 기능을 이용한다. 가상 이더넷을 이용할 경우 각 가상 머신들 사이에 물리적인 네트워크 어댑터 없이도 메모리 버스를 통해 고속 및 고효율 통신이 가능하다.
또한 가상 이더넷은 가상 LAN 기술을 기반으로 네트워크 파티션도 가능하게 한다. 하나의서버에 4개의 가상머신을 구성하는 경우 2개의 가상머신을 묶어 가상 LAN으로 구성하면, 각 가상 LAN 사이에는 통신을 할 수 없게 된다. 이처럼 가상 이더넷을 통해 사용자들은 별도의 물리적 어댑터와 케이블을 사ㅛㅇ하지 않고 네트워크의 이중화, 네트워크의 안정적 단절 등의 효과를 얻을 수 있다.

-공유 이더넷 어댑터
여러 갱의 가성머신이 물리적인 네트워크 카드를 공유할 수 있게 하며, 공유된 물리적 카드를 통해서 외부 네트워크와 통신이 가능하다. 특히 가상머신의 개수보다 물리적 ㄷ어대버의 개수가 적은 경우에 여러 가상머신들이 물리적 이더넷 어댑터를 공유할 수 있게 해 준다. 이 경우에도 하나의 자원을 이용하여 여러 가상머신이 공유하기 때문에 발생하는 병목현상은 피할 수 없다.

-가상 디스크 어댑터
한 대의 서버가 여러 개의 가상머신을 구성할 경우 가장 문제가 되는 부분이 외장 디스크를 사용할 수 있게 해주는 파이버 채널 어댑터(Fiber Channel Adapter)와 같은 I/O 어댑터의 부족이다. 이를 해결하기 위해 가상 디스크 어댑터의 개념이 필요하다.
가상회된 환경에서 가상 디스크를 이용해 가상머신이 디스크 자원을 획득하는 방법에는 두 가지가 있다. 먼저 내장 디스크의 경우 가상 I/O 레이어가 내장 디스크들을 소유하고 있다, 이 내장 디스크들을 논리적 디스크 드라이브로 나눈다. 논리적으로 나누어진 드라이버는 LUN(Logical Init Number)으로 각 파티션에 가상 디스크 어댑터를 통해 분배된다. 해당 가성머신은 이렇게 획득한 논리적 디스크 자원을 물리적 자원처럼 인식한다.
두 번째로 외장 디스크의 경우 먼저 가상 I/O 레이어가 파이버 채널 어댑터를 통해서 외장 디스크의 LUN을 획득한다. 그리고 내장 디스크와는 달리 가상 I/O 레이어가 이 자원을 논리적 디스크 드라이브로 다시 나누지 않고 바로 각 가상머신에 가상 디스크 어댑터를 통해서 분배한다 이처럼 가상 I/O레이어를 통해 제공된 논리적 디스크 볼륨은 이를 이용하는 다른 가상머신에게는 SSCSI 디스크로 나타난다.

2017년 12월 20일 수요일

3. SQL on Hadoop

실제 업무에서는 배치 처리뿐만 아니라, 데이터를 실시간으로 조회하거나 처리해야 하는 일들이 많다. 실시간 처리하는 측면에서 하둡의 제약사항을 극복하기 위한 다양한 시도가 있었으며, 이 중에 최근 주목 받고 있는 것이 SQL on hadoop이라는 실시간 SQL질의 분석 기술이다. 이 기술은 하둡상에 저장된 대용량 데이터를 대화형식의 SQL 질의를 통해서 처리하고 분석하며, 가장 많이 회자되고 있는 기술인 임팔라를 살펴 보고 한다.

가. 임팔라 개요
SQL on Hadoop 기술 중 먼저 대중에게 공개된 기술이 임팔라다. 임팔라를 제작한 클라우데라(Cloudera)는 드레멀(Dremel)의 논문 [Interactive Analysis of Web-Scale Datasets]을 읽은 후 하둡 상에서 실시간, 애드혹(ad-hoc) 질의가 가능할 것 같다는 기술적 영감을 얻어서 개발을 시작했다. 이후 2012년 10월에 시험(Proof of Concept)버전을 공개했으며, 2013년 5월에 정식 버젼(1.0)을 배포했다. 임팔라는 분석과 트랜잭션 처리를 모두 지원하는 것을 목표로 만들어진 SQL 질의 엔진이다. 하둡과 Hbase에 저장된 데이터를 대상으로 SQL 질의를 할 수 있다. 고성능르 낼 수 있도록 자바 대신 C++언어를 이용하였으며, 맵리듀스를 사용하지 않고 실행 중에 최적화된 코드를 생성해 데이터를 처리한다.

나. 임팔라 동작 방식
모든 노드에 임팔라 데몬이 구종되며, 사용자는 이 데몬들이 구동된 임의의 노드에 JDBC나 ODBC 또는 임팔라셀을 이용하여 질의를 요청할 수 있다. 그러면 사용자의 질의는 데이터의 지역성을 고려해서 노드 전체로 분산되어서 수행된다. 하둡에서 잡트랙커(JobTracker)가 데이터 지역을 고려해서 태스크를 데스크트랙커(TaskTracker)에게 할당하는 것과 유사한 방식이다. 사용자의질의 요청을 받은 받은 코디네이터 데몬은 분사되어 수행된 각 임팔라 노드들의 부분 결과들을 취합하여 결과 값을 만들어서 사용자에게 제공한다.
실제 운영 환경에서는 라운드로빈 방식으로 사용자 질의를 분산시켜서 전 노드들이 질의에 대해 코디네이터 역할을 고르게 수행할 수 있도록 해야 한다.

다. 임팔라의 SQL 구문
임팔라는 기본적으로 하이브의 SQL을 이용한다. 하지만 임팔라가 모든 하이브 SQL문을 지원하느 것은 아니기 때문에 어떤 구문이 지원File을 사용할 경우, 데이터 처리 과정에서 발생하는 디스크 입출력 양을 현저하게 줄일 수 있다. 로우 단위로 저장 시, 테이블에서 하나의 컬럼을 읽든 저체 테이블을 읽든 동일한 디스크 입출력이 발생한다. 반면 컬럼 단위의 저장 포맷을 사용하면, 읽고자하는 컬럼만큼의 디스크 입출력이 발생하기 때문에 처리 성능을 개선할 수 있다. 물론 전체 컬럼들을 모두 조회하는 질의는 저장 포맷에 의해 성능이 영향을 받지 않는다.

2017년 12월 18일 월요일

2. 병렬 쿼리 시스템

구글이나 하둡의 MapReduce는 개발자들에게 구현하려는 알고리즘에만 포커싱할 수 있도록 간단한 프로그래밍 모델을 제공하였다. 비록 간단한 프로그래밍 모델이지만 일부 사용자들에게는 새로운 개념이기 때문에 여전히 휩지 않다. 또한 직접 코딩하지 않고도 쉽고 빠르게 서비스나 알고리즘을 구현하고 적용해 볼 수 있는 환경에 대한 필요성이 대두되었다. 이러한 요구사항을 반영해서 스크립트나 사용자에게 ㅣㅊㄴ숙한 궈리 인터페이스를 통해 병렬 처리할 수 있는 시스템들이 개발됐다. 구글의 Sawzall, 야휴의 Pig등은 이러한 MapReduce 시스템을 사용자가 쉽게 사용할 수 있도록 새로운 ㅝ리 언어로 추상화한 시스템이다.

가. 구글 Sawzall
MapReduce를 추상화한 스크립트 형태의 병렬 프로그래밍 언어다. Sawzall은 사용자가 이해하기 쉬운 인터페이스를 제공하여 MapReduce 개발 생산성을 높였다. 이로써 MapReduce 에 대한 이해가 없는 사용자들도 더욱 쉽게 병렬 프로그래밍을 할 수 있게 되었다.

나. 아파치 Pig
Hadoop MapReduce 위에서 동작하는 추상화된 병렬 처리 언어이며 현재 아파치 하둡의 서브 프로젝트다.
-개발 동기
MapReduce는 Map 과 Reduce 두 단계로 이루어진 단순한 병렬 모델이다. 실제 대부분의 업무는 한 번의 MapReduce 작업으로 끝나는 것이 아니다. Map의 Output이 또 다른 Map의 Input으로들어가야 하고, Reduce의 Output이 다른 Map의 Input으로 들어가야 하는 Chaining이 되어야 하고, MapReduce 자체적으로는 지원하기가 어려웠다.

그리고 MapReduce 작업 자체가 단순한 모델이라서 개발자들이 유사한 알고리즘들을 중복 개발하는 경우가 많다. 하지만 코드의 특성상 의미 파악이 어려울 수 있어서 공유는 잘 되지 않는 실정이었다. 이러한 요구 사항을 해결하기 위해 의미적으로는 sql과 비슷하지만 새로운 언어인 pig를 정의하게 되었다.

다. 아파치 하이브
페이스북에서 개발한 데이터 웨어하우징 인프라다. Pig와 마찬가지로 하둡 플랫폼위에서 동작하며, 사용자가 쉽게 사용할 수 있도록 SQL기반의 쿼리 언어와 JDBC를 지원한다. 또한 하둡에게 가장 많이 사용되는ㄴ 병렬처리 기능인 Hadoop-Streaming을 쿼리 내부에 삽입해 사용할 수 있다. 사용자에게 사용 편의성과 성능을 동시에 지원하려 노력한 시도로 보인다.

-개발 배경
페이스북은 사용 DBMS 기반의 데이터 웨어하우스 시스템을 운영하고 있었다. 운영 초기에 데이터는 10GB 정도였지만 시간이 지나면서 수백TB 규모로 늘어났고, 라이선스 등 관리 및 운영비용의 절감의 필요성이 대두되었다. 이에따라 사용 DBMS에서 하둡으로 교체를 결정했으며 교체 과정에서 필요한 기능들, 사용자를 위한 커맨드 라인 인터페이스(CLI), 코딩 없이 애드훅(Ad-hoc)질의를 할 수 있는 기능, 스키마 정보들의 관리 기능들을 하나씩 구현하면서 지금의 하이브라는 시스템이 만들어졌다.

-하이브 아키텍처
하이브의 구성요소 중에서 MetaStore는 Raw File들의 콘텐츠를 일종의 테이블의 컬럼처럼 구조화된(Structured)형태로 관리할 수 있게 해주는 스크마 저장소다. 별도의 DBMS를 설정하지 않으면 Embedded Derby를 기본 데이터베이스로 사용한다. 앞 단에는 커맨드 라인 인터페이스(CLI)가 있는데 사용자는 이 CLI를 통해 Join이나 Group by 같은 SQL쿼리를 한다. 그러면 파서(Parser)에서 쿼리를 받아 구문 분석을 하고, MetaStore에서 테이블과 파티션 정보를 참조해 Execution Plan을 만들어 낸다. 만들어진 이 Plan을 Execution Engine에 보낸다. Execution Engine은 하둡의 JobTracker와 네임노드와 통신을 담당하는 창구역할을 하면서 MapReduce작업을 실행하고 파일을 관리한다. 아래 긞 오른쪽 하단의 SerDe라는 것은 Serializer와 Deserializer의 줄임말이며, 테이블의 로우나 컬럼의 구분자 등 저장 포맷을 정의해주는 컴포넌트다. 하둡의 InputFormat과 OutputFormat에 해당한다고 볼 수 있다.

하이브에서는아래와 같은 언어 모델을 제공한다.

-DDL(Data Definition Language)
테이블 생성(Create Table), 삭제(Drop Table), 변경(Rename Table) 명령
테이블 스키마 변경(Alter Table, Add Column)
테이블 조회(Show Table),스키마 조회(Describe Table)

-DML(Data Manipulation Language)
로컬에서 DFS로 데이터업로드(LOAD DATA)
쿼리 결과를 테이블이나 로컬 파일시스템, DFS에 저장

-Query
Select, Group by, Sort by, Joins, Union, Sub Queries, Sampling, Transform

2017년 12월 17일 일요일

1. Mapreduce

최근 컴퓨팅 환경은 저가형 서버들을 클러스터링하고, 그것으로부터 다양한 리소스(cpu, 메모리, 하드디스크, 파일, 프로세스)들을 끌어 모아 표준화한 대규모 고성능 컴퓨팅 플랫폼을 구축하는 ㅣㅇㄹ에 많은 노력을 기울이고 있다(HPC, Grid, Cluster Computing). 이러한 컴퓨팅 환경은 대용량 데이터를 다루고 있는 다양한 응용 분야에서도 중요한 역할을 수행하게 되는데, 계산중심의 수학.과학 분야뿐만 아니라 데이터 중심의 텍스트 마이닝과 로그 모델링 같은 정보 분석 분야에서도 그 활용도가 높다. 실제 구글의 MapReduce 프로그래밍 방식은 대용량 데이터를 다루는 인터넷 분야에 상당한 영향을 끼치고 있다. 야휴는 오픈소스 하둡을 검색 전반에 걸쳐 활용하고 있으며, 아마존은 EC2와 S3를 선보임으로써 차세대 분산 컴퓨팅 기술을 선도하고 있다. 또한 Parallel DBMS 분양에서도 분산된 지역 DB로부터 다차원 데이터를 분석 처리하기 위하여 MapReduce 방식을 적극 도입하고 있다.

1. MapReduce
분할정복 방식으로 대용량 데이터를 대용량 데이터를 병렬로 처리할 수 있는 프로그래밍 모델이다. 구글에서 MapReduce방식의 분산 컴퓨팅 플랫폼을 구현해 성공적 적용함으로써 더욱 유명해졌으며, 오픈소스인 Hadoop MapReduce 프레임워크가 동일한 기능을 지원한다.
MapReduce 작업은 특별한 옵션을 주지 않으면 Map Task 하나가 1개의 블록(64MB)을 대상으로 연산을 수행한다. 예를 들어 320MB의 파일을 대상으로 작업을 돌리면 그림처럼 5개의 Map Task 가 생성되며, Map 과정에서 생산된 중간 결과물을 Reduce Task들(사용자가 개수 지정)이 받아와서 정렬 및 필터링 작업을 거쳐서 최종 결과물을 만들어 낸다.
________________________________________________________________________

가. 구글 MapReduce
구글은 대용량 데이터를 처리하는 수백 가지의 연산 방식들을 개발해 사용하였다. 대부분의 연산 방식들은 직관적이었지만 처리해야 할 데이터가 매우 컸기 때문에 수백 대 혹은 수천 대의 서버들에 분산 처리해야만 원하는 시간 안에 작업을 마칠 수 있었다. 이러한 분산 환경에서는 개발자가 연산의 병렬화, 데이터 분산, 장애 복구 등의 작업들을 직접 처리해야 하기 때문에 그만큼 ㅗㅋ드의 복잡성이 증가하여 많은 개발 시간이 소요된다. 개발자들에게는 이러한 병렬화, 장애 복구 등의 복잡성을 추상화시켜서 오직 핵심 기능 구현에만 집중할 수 있도록 해주기 위해서 MapReduce를 만들게 되었다.

-프로그래밍 모델
MapReduce는 Map과 Reduce 2개의 단계로 나눌 수 있으며 Map에서는 Key와 Value의 쌍들을 입력으로 받는다. 하나의 Key, Value 싸은 사용자가 정의한 Map 함수를 거치면서 다수의 새로운 Key, Value 쌍들로 변환되어 로컬 파일 시스템에 임시 저장된다. 저장된 임시 파일들은 프레임워크에 의해 Reduce에게 전송된다. 저장된 임시 파일들은 프레임워크에 의해 Reduce에게 전송된다. 이 과정에서 자동으로 Shffling 과 group by 정렬을 한 후 Reduce의 입력 레코드로 들어가게 되는데 형식은 Key와 Value의 리스트다. Reduce의 입력 레코드들은 사용자가 정의한 Reduce 함수를 통해 최종 Output으로 산출된다. 사용자 관점에서는 이전에 언급했던 장애 복구와 같은 세세한 이슈들은 신경 쓸 필요 없이 Map과 Reduce 두 함수만 작성하는 것만으로 대규모 병렬 연산 작업을 수행할 수 있다.

-실행 과정
사용자가 MapReduce 프로그램을 작성해 실행하면 마스터는 사용자의 프로그램에서 지정한 입력 데이터소스를 가지고 스케줄링을 한다. 가령 하나의 큰 파일은 여러 개의 파일 split들로 나뉘며, 각 split들이 Map 프로세스들의 할당 단위가 된다. 보통 split 단위는 블록 사이즈인 64MB 또는 128MB가 되며 split 수만큼 Map Task들이 워커로부터 fork됨과 동시에 실행돼 Output을 로컬 파일 시스템에 저장한다. 이때 Output 값들은 Partitioner라는 Reduce 번호를 할당해 주는 클래스를 통해 어떤 Reduce에게 보내질지 정해진다. 특별히 지정하지 않으면 Key의 해시(Hash)값을 Reduce의 개수로 Modular 계산한 값이 부여되어 동일한 Key들은 같은 Reduce로 배정된다. Map 단계가 끝나면 원격의 Reduce 워커들이 자기에 할당된 Map의 중간 값들을 테느워크로 가져, 사용자의 Reduce로직을 실행해 최종 산출물을 얻어 낸다. 보통 Reduce의 개수는 Map의 개수보다 적으며, 실행 흐름에서 알 수 있듯이 Map 단계를 거치면서 데이터 사이즈가 크게 줄어들고, 줄어든 크기만큼 Reduce 오버헤드도 줄어듦에 따라 성능상 이점이 많다. 하지만 정렬 같은 작업은 입력 데이터의 사이즈가 줄지 않고 그대로 Reduce로 전해지므로 오버헤드에 따른 수행 성능이 저하된다.
즉 정렬 같은 종유의 작업에는 MapReduce 모델이 적합하지 않다.

-포르톨러런스
각 프로세스에서는 Master에게 Task 진행 상태를 주기적으로 보낸다.마스터는 모든 워커들의 Task 상태 정보를 가지고 있다가 특정 워커의 태스크가 더 이상 진행되지 않거나 상태 정보를 일정한 시간 동안(Heartbeat Timeout) 받지 못하면 Task에 문제가 있다고 결론을 내린다. 특정 Map이나 Reduce Task들이 죽은 경우, 해당 Task가 처리해야 할 데이터 정보만 다른 워커에게 전해 주면 워커는 받은 데이터 정보를 인자로 새로운 Task를 재실행하면 된다.

나. Hadoop MapReduce
하둡은 아파치 검색엔진 프로젝트인 로씬(Lucene)의 서브 프로젝트로 시작되었다. 야후에서는 전담 팀을 구성해서 하둡을 지원하기 시작

-아키텍처
네임노드(NameNode) : 분산 시스템의 데몬
데이터노드(DataNode): 분산 시스템의 데몬
JobTracker : 마스터
TaskTracker : 워커데몬 (3초의 한번씩 마스터(JobTracker)에게 하트비트 전달)

클라이언트 -> 프로그램 바이너리와 입출력 디렉토리와 같은 환경 정보 -> JobTracker -> 여러 Task로 쪼갠 후 -> TaskTracker -> 데이터 지역서을 보장할지도 감안해 내부적으로 스케쥴링해 큐(Queue)에 저장 -> HeartBeat를 전송 -> JobTracker는 먼저 해당 TaskTracker에게 할당된 Task 가 있는지 큐에서 살펴본다. 이때 Task가 있으면 하트비트의 Response 메시지에 Task 정보를 실어서 TaskTracker에게 전달 -> TaskTracker는 Response 메시지의 내요을 분석해 프로세스를 fork해 자기에게 할당된 Task를 처리

-하둡의 성능
MapReduce에서 Sort는 어떠한 작업을 실행하도라도 Map 에서 Reduce로 넘어가는 과정에서 항상 발생하는 내부적인 프로세스다. 또한 Sort 자겁은 데이터가 커질수록 처리 시간이 선형적으로 증가한다. 클러스터 구성 서버들의 숫자를 늘림으로써 처리 시간을 줄일 수 있는 것은 아니다. 플랫폼 자체적으로 선형 확장성을 갖고 있어야 처리 시간을 줄일 수 있다. 이런 의미에는 Sort는 하둡 같은 분산 컴뷰팅 플랫폼의 성능과 확장성을 동시에 측정할 수 있는 좋은 실험이라고 할 수 있다. Hadoop MapReduce는 개발 초기인 2006년 이후 최근까지 6배 정동의 성능 향상이 있었다.

2017년 12월 16일 토요일

3. NoSQL

Key 와 Value의 형태로 자료를 저장하고, 빠르게 조회할 수 있는 자료 구조를 제공하는 저장소
Join 연산 기능은 지원하지 않지만 대용량 데이터와 대규모 확장성을 제공

가.구글 빅테이블

빅테이블은 데이터 서비스가 아닌 구글 내부에서 사용하는 데이터 저장소
구글은 AppEngine 이라는 플랫폼 서비스를 2008년 오픈. AppEngine 에서 사용하는 데이터 저장소가 빅테이블이다.

- 데이터 모델
multi-dimension sorted hash map을 파티션하여 분산 저장하는 저장소
테이블 내의 모든 데이터는 row-key의 사전적 순서로 정렬.저장된다.
row는 n개의 column-family를 가질 수 있으며 column-family 내에 저장된 데이터는 column-key의 사전적 순서로 정렬돼 있다. 동일한 column-key에 대해 타임스탬프(timestamp)가 다른 여러 버전의 값이 존재할 수 있다. 따라서 BigTable에 저장되는 하나의 데이터(map)의 키 값 또는 정렬 기준은 "rowkey + columnkey+ timestamp"가 된다.
테이블의 파티션은 row-key를 이요하며, 분리된 파티션은 분산되 노드에서 서비스하도록 한다. 분리된 파티션을 Tablet이라 하며, 한 Tablet의 크기는 보통 100~200MB이다.

-페일오버
특정 노드에 장애가 발생할 경우 빅테이블 마스터(Master)는 장애가 발생한 노드에서 서비스되던 Tablet을 다른 노드로 재할당식킨다. 재할당 받은 노드는 구글 파일 시스템(GFS)에 저장된 변경 로그 파일, 인덱스 파일, 데이터 파일 등을 이용해 데이터 서비스를 위한 초기화 작업을 후행한 후 데이터 서비스를 한다.
빅테이블은 데이터베이스 클러스터 분류로 나누자면 공유 디스트(Shared Disk)방식이다.
공유 저장소로 구글에서 개발된 분산 파일시스템을 이용하고 있어 모든 노드가 데이터, 인덱스 파일을 공유하고 있다.
빅테이블의 SPOF(Single Point Of Failure)는 마스터다. 빅테이블은 분산 락(lock) 서비스를 제공하는 Chubby를 이요해 Master 르르 계속 모니터링하다가 마스터에 장애가 발생하면 가용한 노드에 마스터 역할을 수행하도록 한다. Chubby는 자체적으로 폴트롤러런스 지원 구조이기 때문에 절대로 장애가 발생하지 않는다.

____________________________________________________________________________

빅테이블은 그림에서 보는 것처럼 데이터 저장소를 위해 별도의 클러스터를 구성하기보다는 파일시스템, Map & Reduce 컴퓨팅 클러스터와 동일한 클러스터 위에 구성된다. 실시간 서비스뿐만 아니라 대용량 데이터의 분석 처리에 적합하도록 구성됐다.

- AppEngine 내에서 운영되 애플리케이션의 데이터 저장소를 제공
내부적으로는 빅테이블을 이용
사용자에게 직접 빅테이블의 API를 공개하지 않고 추상 계층을 두고 있는데, API에 대한 추상화뿐만 아니라 데이터 모델에 대해서도 추상화되어 있다.
사용자 테이블을 생성할 경우 빅테이블의 테이블로 생성되는 것이 아니라 빅테이블의 특정 테이블의 한 영역만을 차지하게 된다. 빅테이블에서는 별도의 사용자 정의 인텍스를 제공하지 않는 반면, AppEngine에서는 사용자가 수행하는 쿼리(query)를 분석하여 자동으로 인텍스(index)를 생성해준다. AppEngin에서 생성한 인텍스도 빅테이블의 특정 테이블 또는 테이블 내의 컬럼(column)ㅇ로 저장된다(구글에서는 AppEngine에 대한 자세한 내용을 공개하지 않아서 AppEngine의 API와 빅테이블의 구조 등을 참조해 추론한 내용임).
빅테이블은 Personsalized Search, Google Analytics, Crawl, News recommend 등 2006년 기준으로 60개 이상의 프로젝트에서 사용되고 있다. 이들 시스템의 공통된 특징은 수백 테라바이트(Tera Byte)에서 수 페타바이트(Peta Byte) 규모의 데이터를 다루고 있으며, 실시간으로 데이터를 저장하거나 조회하고, 주기적인 배치 작업을 통해 데이터를 분석하고, 분석된 결과를 다시 실시간으로 서비스하는 패턴을 갖고있다.

나. 아마존 SimpleDB
SimpleDB는 아마존(Amazon)의 데이터 서비스 플랫폼, SimpleDB는 웹 애플리케이션에서 사용하는 데이터의 실시간 처리를 지원한다.

___________________________________________________________

그림에서와 같이 SimpleDB는 주로 아마존의 다른 플랫폼 서비스와 같이 사용된다. EC2, S3 등과 같은 아마존의 내부 서비스 간 네트워크 트래픽은 무료이고, 외부와의 In/Out 트래픽에는 요금을 부과하는 아마존 서비스의 가격 정책 때문이다. 사용자는 EC2에서 수행되는 웹 서버로 접근하고, 웹 서버에서 SimpleDB의 데이터를 조회해 적절하게 가공한 후 사용자에게 제공하는 혀태로 구성된다. 비용을 염두에 두지 않은 경우라면 외부에서 직접 SimpleDB에 접근해 사용하는 것도 가능하다.
SimpleDB는 하나의 데이터에 대해 여러 개의 복제본을 유지하는 방식으로 가용성을 높인다. 이 경우 복제본 간의 consistency는 트랜잭션 종료 후 데이터는 모든 노드에 즉시 반영되지 않고 초 단위로 지연되어 동기화된다.
SimpleDB는 관계형 데이터 모델과 표준 SQL을 지원하지 않으며, 전용 쿼리 언어를 이용하여 데이터를 조회한다. SimpleDB의 데이터 모델은 Domain, Item, Attribute, Value로 구성되며 스키마(schema)가 없는 구조다.

- 도메인
관계형 데이터베이스의 테이블과 동일한 개념으로 하나의 도메인(Domain)에는 최대 10GB의 데이터를 저장할 수 있으며, 사용자는 100개의 도메인을 가질수 있다. 사용자는 최대 1,000GB의 데이터를 SimpleDB에 저장할 수 있다.

-Items
관계형 데이터베이스의 레코드(record)와 동일한 개념인 item은 독립적인 객체를 나타내며, 하나 이상ㅇ의 Attribute를 가진다. 한 item은 최대 256개의 Attribute를 가질 수 있다.

-Attribute
관계형 데이터베이스의 컬럼(column)과 동일한 개념이지만 사용하기 전에 미리 정의할 필요가 없다. Name, Value 쌍으로 데이터를 저장하고, 저장되는 데이터의 Name이 attribute의 이름이 된다. item의 특정 Attribute(Cell)에는 여러 개의 값을 저장할 수 있다.

여러 도메인에 걸치 쿼리는 허용되지 않으며, 한 번에 하나의 도메인에 대해서만 쿼리를 수행해야 한다.
이 경우 1+N(mast-slave)관계의 데이터 모델을 갖는 두 개의 도메인으로부터 데이터를 조회할 경우 쿼리가 여러 번 수행돼야 하는 단점이 있다. 이것은 SimpleDB만의 문제가 아니라 대부분의 데이터 서비스에서 갖는 문제다.

SimpleDB가 어떻게 인덱스를 관리하지에 대한 공식 문서는 없지만, 제공 쿼리를 이용해 추측하면 모든 arrtibute에 대해 bitmap index를 구성하는 것으로 보인다. 이 경우 고르게 분포된 데이터에 대한 "=" 연산에 대해서는 빠른 쿼리를 수행할 수 있지만">", "<" 연산이나 value에 특정 데이터가 많으면 쿼리 성능이 좋지 않다.

클라이언트는 SOAP또는 REST프로토콜을 이용하여 SimpleDB를 이용할 수 있으며, 다음과 같음 API를 제공한다.
-CreateDomain:도메인을 생성한다.
-DeleteDomain:도메인을 삭제한다.
-ListDomains:모든 도메인의 목록을 가져온다.
-PutAttributes: Item을 생성하고 Attribute에 값을 추가한다.
-DeleteAttributes:Attribute 값을 삭제한다.
-GetAttributes: Attribute의 값을 조회한다.
-Query: 쿼리를 이용하여 조건에 맞는 여러 개의 item을 조회한다. 한 번의 쿼리는 최대 5초 이내에 수행되어야(5초가 넘으면 timeout 발생) 하며, 쿼리 결과로 받을 수 있는 최대 item 수는 256개다.

다. 마이크로소프트 SSDS
SSDS(SQL Server Data Service)는 마이크로소프트에서 2008년 4월에 베타 서비스를 실시한 데이터 서비스다. 다른 데이터 서비스와 동일하게 SSDS 역시 고가용성을 보장한다.
SSDS의 데이터 모델은 컨테이너, 엔티티로 구성돼 있다. 컨테이너는 테이블과 유사한 개념이지만 하나의 컨테이너에 여러 종류의 엔티티를 저장할 수 있다. 예를 들어 Order entitiy와 OrderDetail entitiy를 하나의 컨테이너에 여러 종류의 엔티티를 저장할 수 있다. 예를 들어 Order entity와 OrderDetail entitiy를 하나의 컨테이너에 저장할 수 있다. 엔티티는 레코드와 유사한 개념으로, 하나의 엔티티는 여러 개의 property를 가질 수 있으며, property는 name-value 쌍으로 저장된다.
SSDS를 이용하여 애플리케이션을 개발하면 관련된 정보를 하나의 컨테이너에 저장한다. 관계형 데이터베이스에서는 엔티티를 구분하고 엔티티별로 테이블을 생성하는 것이 일반적이다. 예를 들어 CustomerA의 주문 정보(Order)와 주문 상세 정보(OrderDetail)를 저장하기 위해 Order 테이블과 OrderDetail 테이블을 생성한다. 하지만 SSDS에서는 CustomerA라는 Container를 만들고 Order와 OrderDetail entitiy를 생성한 컨테이너에 모두 저장한다. 즉, CustomerId가 파티셔닝 키가 되고 파티셔닝 대상은 컨테이너가 된다.
이런 방식으로 컨테이너를 구성하면, 많은 컨테이너가 생성되는 데 이들 컨테이너는 여러 노드에 분산.관리된다. 쿼리는 하나의 컨테이너만을 대상으로 한다.
컨테이너의 생성/삭제, 엔티티의 생성/삭제.조회, 쿼리 등의 API를 제공하고 SOAP/REST기반의 프로토콜을 지원한다.

2. 데이터베이스 클러스터

데이터를 통합할 때, 성능 향상과 가용성을 높이기 위해 데이터베이스 차원의 파티셔닝 또는 클러스터링을 이용한다.

- 파티션 사이의 병렬 처리를 통한 빠른 데이터 검색 및 처리
-성능의 선형적인 증가 효과
-고가용성(특정 파티션에서 장애 발생시에도 서비스가 중단되지 않음)

시스템 구성
- 단일 서버 내의 파티셔닝
-다중 서버 사이의 파티셔닝

리소스 공유 관점
- 공유 디스크(Shared Disk)
- 무공유 디스트(Shared Nothing)

1) 무공유(Shared Nothing) 클러스터
각 데이터베이스 인스턴스는 자신이 관리하는 데이터 파일을 자신의 로컬 디스크에 저장하며, 노드 간에 공유하지 않는다.
각 인스턴스나 노드는 완전히 분리된 데이터의 서브 집합에 대한 소유권을 가지고 있으며, 각 데이터는 소유권을 갖고 있는 인스턴스가 처리한다. 한 노드가 데이터 처리 요청을 받으면, 해당 노드는 처리할 데이터를 갖고 있는 노드에 신호를 보내 데이터 처리를 요청한다.
장점- 노드 확장에 제한이 없다.
단점- 장애 발생시 대비해 별도의 폴트톨러런스(fault-tolerance)를 구성 필요
Oracle RAC(Real Application Cluster)를 제외한 대부분의 데이터베이스 클러스터가 무공유 방식을 사용.

2)공유 디스크(Shared Disk) 클러스터
데이터 파일은 논리적으로 모든 데이터베이스 인스턴스 노드들 과 공유, 각 인스턴스는 모든 데이터에 접근할 수 있다. 데이터를 공유하려면 SAN(Storage Area Network)과 같은 공유 디스크가 반드시 있어야 하며, 모든 노드가 데이터를 수정할 수 있기 때문에 노드간의 동기화 작업 수행을 위한 별도의 커뮤니케이션 채널이 필요하다.
장점- 높은 수준의 폴트톨러런스 제공(클러스터를 구성하는 노드 중 하나의 노드만 살아 있어도 서비스가 가능)
단점- 클러스터가 커지면 디스크 영역에서 병목현상 발생 (Oracle RAC가 공유디스크 방식을 이용)

가. Oracle RAC 데이터베이스 서버
_________________________________________________

그림은 일반적인 4노드 RAC 구성모델.
Oracle RAC 데이터베이스 서브는 클러스터의 모든 노드에서 실행되며, 데이터는 공유 스토리지에 저장된다.
클러스터의 모든 노드는 데이터베이스의 모든 테이블에 동등하게 액세스하며, 특정 노드가 데이터를 '소유'하는 개념이 없다. 따라서 데이터를 파티셔닝할 필요가 없지만, 성능 향상을 위해 빈번하게 파티셔닝 된다. 응용 프로그램은 클러스터의 특정 노드가 아니라 RAC 클러스터에 연결하며, RAC는 클러스터의 모든 노드에 로드를 고르게 분산한다.

-가용성
클러스터의 한 노드가 어떤 이유로 장애를 일으키면 Oracle RAC는 나머지 노드에서 계속 실행된다. 장애가 발생한 노드에 연결됐던 모든 응용 프로그램(사용자)은 투명하게 다시 연결되어 클러스터의 나머지 노드에 분산된다.

-확장성
추가 처리 성능이 필요하면 응용 프로그램이나 데이터베이스를 수정할 필요 없이 새 노드를 클러스터에 쉽게 추가할 수 있다. 클러스터의 모든 노드 간에 균형이 유지되도록 로드가 다시 분산된다. Oracle 10g R2 RAC 는 클러스터 내에 최대 100개의 노드를 지원한다.

-비용 절감
RAC는 표준화된 소규모(CPU 4개 미만)저가형 사용 하드웨어의 클러스터에서도 고가의 SMP 시스템만큼 효율적으로 응용 프로그램을 실행함으로써 하드웨어 비용을 절감한다. 예를 들어 4CPU의 16노드 클러스터를 사용하면 동급 성능의 64CPU SMP 시스템에 대해 비용을 크게 절감할 수 있다.
Oracle RAC는 여러 장점을 갖고 있지만 일반적으로 4노드 이상 잘 구성하지 않는다. 도입 비용 때문에 확장성이 중요한 데이터보다는 고가용성을 요구하는 데이터에 많이 사용한다.

나. IBM DB2 ICE(Integrated Cluster Environment)
DB2는 CPU.메모리.디스크를 파티션별로 독립적으로 운영하는 무공유 방식의 클러스터링을 지원한다. 애플리케이션은 여러 파티션에 분산된 데이터베이스를 하나의 데이터베이스(Single View Database)로 보게되고, 데이터가 어느 파티션에 존재하고 있는지 알 필요가 없다. 따라서 데이터와 사용자가 증가하면 애플리케이션의 수정 없이 기존 시스템에 노드를 추가하고 데이터를 재분배함으로써 시스템의 성능과 용량을 일정하게 유지할 수 있다.
하지만 각 노드로 분산되는 파티셔닝을 어떻게 구성하느냐에 따라 성능의 차이가 많이 발생할 수 있으며 하나의 노드에 장애가 발생할 경우, 해당 노드에서 서비스하는 데이터에 대한 별도의 페일오버(failover)메커니즘이 필요하게 된다. 따라서 DB2를 이용하여 클러스터를 구성할 때에도 가용성을 보장하기 위해 공유 디스크 방식을 이용한다. 공유 디스크에 저장된 데이터 파일에 대해 특정 시점에서는 특정 노드에 의해 서비스 되지만 장애 상항이 발생하게 되면 다른 노드가 해당 데이터에 대한 서비스를 처리하는 방식으로 가용성을 보장한다.

다. 마이크로소프트 SQL Server
연합(Federated) 데이터베이스 형태로 여러 노드로 확장할 수 있는 기증을 제공
연합데이터베이스는 디스크 등을 공유하지 않는 독립된 서버에서 실행되는 서로 다른 데이터베이스들 간의 논리적인 결합이며, 네트워크를 이용하여 연결된다.
데이터는 관련된 서버들로 수평적으로 분할된다. 테이블을 논리적으로 분리해 물리적으로는 분산된 각노드에 생성하고, 각 노드의 데이터베이스 인스턴스 사이에 링크를 구성한 후 모든 파티션에 대해 UNIO ALL 을 이용해 논리적인 뷰(VIEW)를 구성하는 방식으로 분산된 환경의 데이터에 대한 싱글 뷰를 제공한다.
SQL Server 에서는 이런 뷰를 DVP(Distributed Partitioned View)라고 한다.

DBA나 개발자가 파티셔닝 정책에 맞게 테이블과 뷰를 생성해야 하고, 전역 시키마(Global schema)정보가 없기 때문에 질의 수행을 의해 모든 노드를 액세스해야 한다는 점.
노의가 많아지거나 노드의 추가/삭제가 발생하는 경우 파티션을 새로 해야 하는 문제
페일오버에 대해서는 별도로 구성.
SQL Server에서도 페일오버 메커니즘을 제공하지만, Active-Activie가 아닌 Active-Standy 방법을 사용

라. MySQL 크러스터
무공유 구조에서 메모리(최근에는 디스크도 제공)기반 데이터베이스의 클러스터링을 지원
특정한 하드웨어 및 소프트웨어를 요구하지 않고 병렬 서버구조로 확장이 가능.
-관리 노드(Management Node):클러스터를 관리하는 노드로 클러스터 시작과 재구성 시에만 관여한다.
-데이터 노드(NDB Node):클러스터의 데이터를 저장하는 노드
-MySQL 노드: 클러스터 데이터에 접근을 지원하는 노드

MySQL 클러스터는 데이터의 가용성을 높이기 휘해 데이터를 다른 노드에 복제시키며, 특정 노드에 장애가 발생하더라도 지속적인 데이터 서비스가 가능하다. 장애가 났던 노드가 복구되어 클러스터에 투입된경우에도 기존 데이터와 변경된 데이터에 대한 동기화 작업이 자동으로 수행된다. 데이터는 동기화 방식으로 복제되며, 이런 작업을 위해 일반적으로 데이터 노드 간에는 별도의 네트워크를 구성한다.
MySQL의 최근 버전(5.1.6 이상)에서는 디스크 기반의 클러스터링을 제공한다. 디스크 기반 클러스터링에서는 인덱스가 생성된 칼럼은 기존과 동일하게 메모리에 유지되지만, 인텍스를 생성하지 않은 칼럼은 디스크에 저장된다. 따라서 디스크에 저장된 데이터는 모두 인덱스가 없는 데이터다. 이 경우 디스크에 저장된 데이터와 JOIN 연산을 수행할 경우 성능이 좋지 않기 때문에 애플리케이션 개발 시 주의해야 한다. 또한 디스크 기반이라 하더라도인텍스로 구성된 컬럼은 메모리에 있기 때문에 데이터의 크기와 메모리 크기를 고려하여 인덱스 생성과 클러스터의 참여하는 장비의 메모리르 산정해야 한다.

제한사항
- 파티셔닝은 LINEAR KEY 파티셔닝만 사용 가능하다.
- 클러스터에 참여하는 노드(SQL 노드, 데이터노드, 메니저를 포함)수는 255로 제한한다. 데이터 노드는 최대 48개까지만 가능하다.
- 트랜잭션 수행 중에 롤백을 지원하지 않으므로 작업 수행 중에 문제가 발생하였다면, 전체 트랜잭션 이전으로 롤백해야 한다.
- 하나의 트랜잭션에 많은 데이터를 처리하는 경우 메모리 부족 문제가 발생할 수 있으며, 여러 개의 트랜잭션으로 분리해 처리하는 것이 좋다(예:Delete from .. LIMIT ...).
- 칼럼명 길이는 31자, 데이터베이스와 테이블명 길이는 122자까지로 제한된다. 데이터베이스 테이블, 시스템 테이블, 블롭(BLOB) 인덱스를 포함한 메타데이터(속성정보)는 2만 320개까지만 가능하다.
- 클러스터에서 생성할 수 있는 데이블 수는 최대 2만 320개다. 한 로우(row)의 최대 크기는 8KB다(BLOB를 포함하지 않는 경우), 테이블의 키는 32개가 최대다.
- 모든 클러스터의 기종은 동일해야 한다. 기종에 따른 비트 저장방식이 다르면 문제가 발생할 수 있다.
- 운영 중에 노드를 추가/삭제할 수 없다.
- 디스크 기반 클러스터인 경우 tablespace의 개수는 2^32(4294967296), tablespace당 데이터 파일의 개수는 2^16(65535), 데이터 파일의 크기는 32GB까지 가능하다.

1. 분산 파일 시스템

사용자 중심의 인터넷 서비스와 유비쿼터스 컴퓨팅 환경은 대규모 클러스터 시스템 플랫폼의 필요성을 부각.
대규모 클러스터 시스템: 네트워크상에 분산된 많은 서버들을 클러스터로 구성
- 대용량 저장공간
- 빠른 처리 성능
- 시스템 확장의 용의
- 시스템 신뢰성 및 가용성(시스템 장애가 발생시 안전 보장)

NFS(Network File System) 기존 단순한 클라이언트/서버 수준의 분산 파일 시스템으로는 시스템 성능과 확장에 한계 발생

비대칭형(asymmetric)클러스터 파일 시스템은 성능과 확장성, 가용셩 면에서 적합한 분산 파일 시스템 구조로, 최근에 연구와 개발이 활발히 진행

비대칭형 클러스터 파일 시스템: 파일 메타데이터를 관리하는 전용 서버
(메타데이터 서버에 부하가 집중될 수 있으며 single-of-failure 지점이 돌 수 있는 문제점 내표)

가. 구글 파일 시스템(GFS, Google File system)
구글의 대규모 클러스터 서비스 플래폼의 기반

- 저가형 서버로 구성된 환경으로 서버의 고장이 빈번히 발생할 수 있다고 가정한다.
-대부분의 파일은 대용량이라고 가정한다. 따라서 대용량 파일을 효과적으로 관리할 수 있는 방법이 요구된다.
- 작업 부하는 주로 연속적으로 많은 데이터를 읽는 연산이거나 임의의 영역에서 적은 데이터를 읽는 연산이다.
- 파일에 대한 쓰기 연산은 주로 순차적으로 데이터를 추가하며, 파일에 대한 갱신은 들물게 이루어진다.
-여러 클라이언트에서 동시에 동일한 파일에 데이터를 추가하는 환경에서 동기화 오버헤드를 최소화 할 수 있는 방법이 요구된다.
-낮은 응답 지연시간보다 높은 처리율이 보다 중요하다.

GFS는 그림과 같이 클라이언트, 마스터, chunk 서버를 구성된다.

GFS의 클라이언트는 POSIX(Portable Operating System Interface)인터페이스를 지원하지 않으며, 파일 스스템 인터페이스와 유사한 자체 인터페이스를 지원 한다. 또한 여러 클라이언트에서 원자적인 데이터 추가(atomic append)연산을 지원하기 위한 인터페이스를 지원한다.

GFS에서 파일은 고정된 크기의 chunk들로 나누어 chunk서버들에 분산.저장된다.
그리고 각 chunk 에 대한 여러 개의 복제본도 chunk 서버에 분산.저장된다.

따라서 클라이언트는 파일에 접근하기 위하여 마스터로부터 해당 파일의 chunk가 저장된 chunk 서버의 위치와 핸들을 먼저 받아온다.
이어서 직접 chunk 서비로 파일 데이터를 요청한다. GFS의 마스터는 단일 마스터 구조로 파일 시스템 이름 공간과 파일의 chunk 매핑 정보, 각 chunk 의 크기를 64MB로 지정함으로써 파일 메타데이터의 크기를 줄인다. 또한 기존 트리 구조가 아닌 해시 테이블 구조 등을 사용함으로써 메모리상에서 보다 효율적인 메타데이터 처리를 지원한다. 마스터에서는 주기적으로 하트비트(heartbeat)메시지를 이요하여 chunk 서버에 저장된 chunk 들의 상테를 체크해 상태에 따라 chunk를 재 복제하거나 재분산하는 것과 같은 회복동작을 수행한다.
마스터에 대한 장애 처리와 회복을 위해 파일스스템 이름 공간과 파일의 chunk 매핑 변경 연산을 로깅하고 마스터의 상태를 여러 새도 마스터에 복제한다.
Chunk 서버는 로컬 디스크에 chunk를 저장.관리하면서 클라이언트로보터의 chunk입출력 요청을 처리한다. chunk는 마스터에 의해 생성/삭제될 수 있으며, 유일한 식별자에 의해 구별된다. 마스터는 하나의 chunk 서버를 primary로 지정하여 복제본의 갱신 연산을 일관되게 처리할 수 있도록 보장한다.

나. 하둡 분산 파일 시스템
하둡(Haddop)은 아파치(Apache)의 검색엔진 프로젝트인 루씬(Lucene)의 서브 프로젝트로 진행되었지만, 2008년 1월에 아파츼의 최상위 프로젝트로 승격되었다. 하둡은 하둡 분산 파일시스템(HDFS)과 MapReduce 구현 등을 포함한다. HDFS는 처음에 아파치 너치(Apache Nutch)웹 검색 엔진의 파일 시스템으로 개발되었으며, 구글 파일 시스템과 아키텍처와 사상을 그대로 구현한 클로닝(Cloning)프로젝트라고 할 수 있다.
_____________________________________________________________________________

HDFS 는 그림에서와 같이 하나의 네임노드(NameNode)와 다수의 데이터노드(DataNode)로 구성된다.
네임노드는 파일 시스템의 이름 공간을 관리하면서 클라이언트로부터의 파일 접근 요청을 처리한다.
HDFS에서 파일 데이터는 블록 단위로 나뉘어 여러 데이터 노드에 분산.저장된다. 그리고 블록들은 가용성을 보장하기 위하여 다시 복제.저장된다.

따라서 데이터노드는 클라이언트로부터의 데이터 입출력 요청을 처리한다. HDFS에서 파일은 한 번 쓰이면 변경되지 않는다고 가정한다. 따라서 HDFS는 데이터에 대한 스트리밍 접근을 요청하며, 배치작업에 적합한 응용을 대상으로 한다.
네임노드는 데이터노드들로부터 하트비트(Heartbeat)를 주기적으로 받으면서 데이터노드들의 상태를 체크한다. 또한 하트비트, 네임노트, 데이터노드 간의 통신을 위하여 TCP/IP네트워크상에 RPC(Remote Procedure Call)를 사용한다.

다. 러스터(Luste)
클러스터 파일 시스템(Cluster File Systems Inc.)에서 개발한 객체 기반 클러스터 파일 시스템이다.
리스터는 그림과 같이 클라이언트 파일 시스템, 메타데이터 서버, 객체 저장 서버들로 구성되며, 이들은 고속 네트워크로 연결된다. 리스터에서는 계층화된 모듈 구조로 TCP/IP, 이니니밴드(Infiniband), 미리넷(Myrinet)과 같은 네트워크를 지원한다. 클라이언트 파일 시스템은 리눅스 VFS(Virtual File System)에서 설치할 수 있는 파일 시스템으로, 메타데이터 서버와 객체 저장 서버들과 통신하면서 클라이언트 응용에 파일 시스템 인터페이스를 제공한다. 메타데이터 서버는 파일 시스템의 이름 공간과 파일에 대한 메타 데이터를 관리하며, 객체 저장 서버는 파일데이터를 저장하고 클라이언트로부터의 객체 입출력 요청을 처리한다. 객체는 객체 저장 서버들에 스트라이핑되어 분산.저장된다.
리스터는 유닉스(Unix) 시맨틱을 제공하면서 파일 메타데이터에 대해서는 라이트백 캐시(Write Back Cache)를 지원한다. 이를 위해 클라이언트에서 메타데이터 변경에 대한 갱신 레코드를 생성하고 나중에 메타데이터 서버에 전달한다. 그러면 메타데이터 서버는 전달된 갱신 레코드를 재수행하여 변경된 메타데이터를 반영한다. 더불어 메타데이터 서버에서는 메타데이터를 도시에 접근하는 부하에 따라 클라이언트 캐시에서 라이트백 캐시를 지원하거나 메타데이터 서버에서 메타데이트를 처리하는 방식을 적용한다.
__________________________________________________________________

리스터는 메타데이터 서버에서 처리하도록 하는 방식을 사용해 메타데이터에 대한 동시 접근이 적으면 클라이언트 캐시를 이용한 라이트백 캐시를 사용하고, 메타데이터에 대한 동시 접근이 많으면 클라이언트 캐시를 사용함으로써 발생할 수 있는 오버헤드를 줄인다.
리스터는 파일 메타데이터와 파일 데이터에 대한 동시성 제어를 위해 별도의 잠금을 사용한다. 메타데이터에 접근하기 위해서는 메타데이터 서버로부터 잠금을 획득해야 한다. 파일 데이터를 접근하기 위해서는 해당 데이터가 저장된 객체 저장 서버의 잠금을 획득해야 한다.
또한 리스터에서는 클라이언트와 메타데이터 서버 간의 네트워크 트래픽을 최호화하기 위하여 메타데이터에 대한 요청 시에 메타데이터 접근 의도를 같이 전달하는 인텐트(intent)기반 잠금 프로토콜을 사용한다. 따라서 메타데이터 서버는 메타데이터 접근 의도에 따라 해당 동작을 후생하고, 잠금을 승인하는 처리를 함께 수행함으로써 클라이언트와 메타데이터 서버 간의 네트워크 트래픽을 줄인 수 있다.

클러스터 파일 시스템 비교

구분 GFS 하둡 DFS 리스터
Open Source 지원 지원 지원
Chunk base 지원 지원 지원 안함
Support Replication 지원 지원 지원 안함
Multiple metadata server supported 지원 안함 지원 안함 지원 안함
Locks used to maintain aoomicity 지원 지원 지원
Uses a DB for storing metadata 지원 안함 지원 안함 지원 안함
Adding nodes widthout shutting 지원 지원 지원
down the System.
POSIX support 지원 안함 지원 안함 지원
Supports file modification 지원 안함 지원 안함 지원
(append는 지원함)

2017년 12월 9일 토요일

1.5. 오토 레이아웃(Auto Layout)

아이폰 화면 해당도

아이폰 3gs 320 x 480 pixels
아이폰 4/4s 640 x 960 pixels
아이폰 5/5c/5s 640 x 1136 pixels
아이폰 6 750 x 1334 pixels
아이폰 6+ 1242 x 2208 pixels (1080x1920 다운 샘플링 처리)

어뎁티브 사용자 인터페이스는 향상된 ViewController 기능, 스토리보드, 오토레이아웃(Auto Layout)기능, 동적 텍스트(Dynamic Text) 기능, 사이즈 클래스(Size Classes)

Use Auto Layout 체크상자에 체크되어 있으면 뷰 아래쪽에 오토레이아웃 메뉴가 표시

-3가지 오토 레이아웃 메뉴
Align: 왼쪽, 중앙, 오른쪽에 위치시키는 것과 같은 제약조건 생성
Pin: 뷰의 높이, 상호 간의 거리 등의 제약조건 생성
Resolve Auto Layout lssues : 설정된 제약조건을 처리 혹은, 취소할 때 사용

1.5.1. 컨트롤을 가로, 세로의 중앙에 위치하는 폼 작성

Horizontal Center in Container
Vertical Center in Container

1.4. 첫 번째 애플리케이션-싱글 뷰 컨트롤러(Single View Controller)

- 일반적으로 Swift 가 아닌 Object-C 에서 작성된 아이폰 애플리케이션은 항상 프로젝트의 Supporting Files 폴더에서 자동으로 생성되는 main.m 파일에서 시작한다.

int main(int argc, char *argv[])
{
@autoreleasepool{
return UIApplicationMain(argv, argv, nil,
NSStringFormClass([AppDelegate class]))
}
}

하지만 Swift 에서는 Object-c 언어의 main.m에 해당하는 main.swift 파일이 존재하지 않는다. 바로 AppDelegate 클래스에서 처리하게 된다.

AppDelegate 클래스를 선언하는 AppDelegate,swift 파일을 보면 다음과 같이 파일 앞쪽에 @UIApplication 서브 클래스를 ㅊ처리하고 이어서 AppDelegate 객체를 생성하게 된다.

import UIKit

@UIApplicationMain
......

즉, 위 코드 하나를 사용하여 UIApplicationMain 함수를 호출하고 이 함수는 다시 내부적으로 UIApplication 객체를 생성하고 AppDelegate 클래스를 호출하게 된다.

AppDelegate 클래스에서는 다음과 같은 func application(application, didFinishLaunchingWithOption) 메소드를 자동으로 호출하는데 이전 xCode 에서는 이메소드에서 스토리 보드 파일의 화면 구성을 처리하였다. 하지만 현재는 단지 "return true"라는 코드가 있을 뿐 다른 아무런 코드가 존재하지 않는다. 그렇다면 어떻게 스토리보드 파일의 화면을 호출 할 수 있을까?

fun application(application: UIApplication, didFinishLauchingWidthOptions
launchOptions: [NSObject: AnyObject]?) -> Bool {
//Override point for customization after application launch.
return true
}

프로그램 탐색기의 Supporting Files 폴더 아래쪽에 있는 Info.plist 파일에서 이 일을 자동으로 처리한다.

-ViewController

import UIKit

class ViewController: UIViewController{
....

@IBOutlet var textField: UITextField!

@IBAction func clickedCompleted(sender: AnyIbject){
......

참고: @IBOutlet 과 @IBAction 키워드
컴파일 코드에 아무런 여향을 주지 않는 컴파일러 지시자이다. 두 개 보두 현재 선언된 객체 변수가 .storyboard 파일에 지정된 객체 컨트롤과 연결되어 있다는 것을 알려준다.

1.3. Xcode 시작하기

1.3.1. 프로젝트 생성

1.3.1.1. 프로젝트 APP 종류

Xcode 에서 새로운 프로젝트를 사용하기 위해서 Xcode 의 Create a new Xcode project 항목 선택

Choose a template for your new project: 에서 iOS 탭 선택

-Master-Detail App
리스트 형식의 마스터 화면을 보여주고 마스터 화면 중 하나의 항목을 선택하면 디테일 화면으로 이동하고 해당 항목에 대한 자세한 내용을 보여주는 기능을 제공한다. 여기서 다시 백(back)버튼을 선택하면서 다시 이전 마스터 화면으로 이동한다.

-Page-Based App
전자책에서 사용되는 기본적인 기능을 제공하여 원하는 내용을 화면에 표시한다. 또한, 페이지를 넘기는 애니메이션 기능 혹은, 페이지 화면 이동하는 애니메이션 기능 등을 옵션으로 제공하고 있다.

-Single View App
하나의 ViewController 와 하나의 View 화면을 제공하는 가장 일반적인 기능을 제공.

-Tabbed App
탭 바(Tab Bar) 애플리케이션을 생성하고자 할 때 사용된다. 일반적으로 탭 바는 아래쪽에 위치하는데 탭 바에 여러 버튼이 위치하여 버튼을 누를 때마다 화면이 변경되는 기능을 제공해서 한 번에 여러 화면을 사용하고자 할 때 사용

-Game
애플에서 직접 제공하는 게임 프레임워크를 사용하여 게임을 만들고자 할때 사용

여기서는 Single View App 선택 -> Next 버튼 프로젝트 옵션 화면

1.3.1.2. 프로젝트 속성

- Product Name
애프리케이션 이름

-Organization Name
개발자 속한 조직 이름 즉, 회사 이름 혹은, 학교 이름을 지정한다.

-Organization identifier
현재 애플리케이션을 다른 애플리케이션과 구별하기 위한 유일한 이름을 사용한다.
일반적으로 자신 혹은, 회사의 웹사이트 URL 에서 www 를 뺀 이름의 역순으로 표기한다.

-Language
사용하고자 하는 언어(Object-c, Swift)

-Devices
개발하고자 하는 기기이름
아이폰 앱만 개발하고자 한다면 iPhone, 아이패드 앱만 개발하고자 한다면 iPad, 아이폰, 아이패드 둘 모두를 지원하고자 한다면 Universal 을 선택한다.

FirstApp이라는 프로젝트 이름 입력 하고 Language 에는 Swift, Devices 에는 iPhone을 선택한다.

1.3.2. 파일 추가
FirstApp 에서 New File 생성
iOS-Source를 선택 오른쪽의 CoCoa Touch Class 를 선택
이름을 SecondViewController 이름 지정

두 번째 Subclass of 항목은 생성하고자 하는 클래스의 부모클래스를 지정한다.

가운데 위치한 Also create XIB file 체크상자에는 체크하지 않느다.
이 체크상자는 아이폰 앱의 사용자 인터페이스를 담당하는 .xib 파일을 생성하는 기능인데 여기서는 .xib 파일 기능과 비븟한 스토리보드를 사용할 것이므로 체크하지 않도록 한다.
마지막으로 Language 항목에 Swift를 지정하여 Swift 언어를 사용하도록 설정한다.

1.3.3. Xcode 에디터와 에디터 보조 기능 창 표시

에디터는 Xcode의 중앙에 위치하며 항상 나타난다. Xcode 오른쪽 위에 위치한 에디터 선택기는 왼쪽에서 오른쪽으로 표준 에디터, 도움에디터, 버젼 에디터를 선택할 수 있도록 해주고 이어서 왼쪽 탐색기 지역 표시/숨기기, 아래쪽 디버거 지역 표시/숨기기, 오른쪽 유틸리티 지역 표시/숨기기를 처리할 수 있는 버튼 제공.

표준에디터: 일반적으로 소스 코드를 편집할 수 있는 1개의 원도우를 가진 에디터
도움에디터: 2개 원도우를 가진 에디터, 서로 비교하거나 2개의 소스코드를 동시에 작업하거나 스토리보드에서 자동으로 객체 변수를 생성할 때 사용.
버젼 에디터: 동일한 파일을 버전에 따라 2개의 원도우에 각각로드하여 이 파일이 어떤 과정으로 변경되었느닞 그 수정 기록 보관
탐색기 지역: 누를 때마다 왼쪽 탐색기 지역을 표시하거나 숨김
디버거 지역: 누를 때마다 아래쪽 디버거 지여긍ㄹ 표시하거나 숨김
유틸리티 지역: 누를 때마다 오른쪽 유틸리티 지역을 표시하거나 숨김

1.3.4. 스토리보드 파일 및 xib 파일
Xcode 프로젝트 탐색깅는 소스코드 외에 .xib 파일이나 .storyboard 라는 파일을 제공

.xib 파일은 Xcode 초기 때부터 이러한 인터페이스를 담당하여 화면 처리에 사용
Xcode 5.x부터는 기능이 더 확장된 스토리보드 파일(.storyboard)을 사용하여 거의 모든 인터페이스를 담당하고 있다.

프로텍트 탐색기에서 스토리보드 파일을 선택했을 때 도움말, 인스펙터, 라이브러리 등을 제고하는 유틸리티 지역을 사용할 수 있다. 캔버스의 여러 컨트롤을 관할 수 있는 인스펙터(inspector)는 오른쪽 위에 위치하고 여러 컨트롤을 제공하는 라이브러리는 오른쪽 아래에 나타난다.
인스펙터는 그 인스펙터 패인(inspector Pane)위에 위치한 인스펙터 선택 바(inspector Selector Bar)를 사용하여 원하는 인스펙터를 표시할 수 있고 라이브러리 역시 라이브러리 패인(Library Pane)위쪽에 위치한 라이브러리 선택 바(Libary Selector Bar)를 사용하여원하는 라이브러리를 선택할 수 있다.

1.3.4.1. 인스펙터(Inspector)

인스펙터(Inspector)는 주로 캔버스에 위치된 컨트롤과 실제 코드 사이를 연결시키는 기능을 하는데 왼쪽에서 오른쪽으로 File 인스펙터, Quick Help 인스펙터, Identity 인스펙터, Attributes 인스펙터, Size 인스펙터, Connection 인스펙터 등의 위치한다.

File 인스펙터: 프로젝트에서 사용 중인 파일에 대한 이름, 타입, 위치, 인코딩 방법 등을 가지고 있는 메타 파일을 관리한다.

Quick Help 인스펙터: 핸재 소스 안에서 선택된 변수 혹은, 메소드에 대한 설명 혹은, 그 변수, 메소드가 있는 파일 정보를 보여준다.

Identity 인스펙터: 클래스 이름, 참조 정보, 런타임 속성, 라벨 등에 대한 메타 정보를 보여주거나 관리해 준다. 기존 클래스 대신 별도의 클래스로 대치시킬 때 사용된다.

Attributes 인스펙터: 선택된 객체에 대한 속성 즉, 특성화된 기능을 보여주거나 설정할 수 있다.

Size 인스펙터: 선택된 객체애 대한 초기 크기, 위치, 최소 크기, 최대 크기에 대한 정보를 보여주거나 설정 할 수 있다.

Connections 인스펙터: 선택한 객체와 실제 코드 사이를 연결하여 객체 초기화를 자동으로 처리해 준다.

1.3.4.2. 라이브러리

라이브러리는 파일 템플릿 라이브러리(File Template Library), 코드 스니핏 라이브러리(Code Snippet Library), 오브젝트 라이브러리(Object Library), 미디어 라이브러리(Media Library) 등이 있다.

파일 템플릿 라이브러리: Object-c 클래스, C++ 클래스, 헤더 파일, Swift 파일 등 원하는 파일 형태를 생성하고자 할 때 사용

코드 스니핏 라이브러리: 인라인 블록, try/catch 문장 등 원하는 형태의 코드 블록을 자동으로 생성하고자 할때 사용

오브젝트 라이브러리: 버튼(Button), 라벨(Label), 텍스트 필드(Text Field)등 사용자 확면을 자성하고자 할 때 사용.

미디어 라이브러리: 현재 프로젝트에서 사용되는 그림, 아이콘과 같은 리소스 파일을 관리

오브젝트 라이브러리 컨트롤

Label: 글자를 출력할 때 주로 사용

Button: 버튼 생성 컨트롤

Text Field : 텍스트를 입력할 수 있는 상자 컨트롤

Slider: 볼륨과 같이 정해진 크기 안에서 임의의 수만큼 지정할 때 사용 되는 컨트롤

Switch: On/Off 처리할 수 있는 컨트롤

Progress View: 시간이 걸리는 경우 현재 진행 상항을 표시할 수 있는 컨트롤

Page Control: 마치 책의 페이지를 넘기듯이 다음 페이지 혹은, 이전 페이지로 이동할 수 있는 컨트롤

Stepper: 숫자를 증가시키거나 감소시킬 수 있는 컨트롤

Table View: 많은 자룔를 일렬로 표시하여 정리할 수 있는 컨트롤

Map View :지도를 표시할 수 있는 컨트롤

Text View: 텍스트 문자열을 표시할 수 있는 컨트롤

Image View: 이미지 파일(jpg, png)을 표시할 수 있는 컨트롤

Scroll View: 데이터양이 현재 뷰 크기보다 클 경우 스크롤 바를 사용하여 좌, 우 혹은, 위, 아래로 이동할 수 있는 컨트롤

Picker View: 날짜, 혹은, 숫자를 선택할 때 사용되는 컨트롤

1.3.5. 도큐먼트 아웃라인(Document Outline)창

.Storyboard 파일을 선택했을 때 캔버스 왼쪽에 나타나는 창. 현재 스토리보드가 구성되어 있는 컨트롤 구조를 계층화 형태로 노출.

2017년 11월 29일 수요일

데이터 연계 및 통합 기법 요약

1. 데이터 연계 및 통합 유형(동기화 기준)

데이터 연계 및 통합 시 일괄(Batch)작업 또는 비동기식 근접 실시간(Near Real Time)또는 동기식 실시간(Real Time) 방식의 혼요.사용될 수 있다.

일괄 작업 :
- 비실시간 데이터 통합
- 대용량 데이터 대상
- 높은 데이터 조작 복잡성
- 데이터 추출
- 데이터 변형
- 데이터 적재
- CDC(Change data capture)
- 감사 증적
- 웹 서비스/SOA
- 교차 참조
- 데이터 재 처리 허용
- 점대점 데이터 연계
- 자도화 도구 및 자체 개발 SW 혼용

비동기식 실시간 통합
- 근접 실시간(Near Real Time)데이터 통합
- 중간 용량 데이터
- 중간 데이터 조작 복잡성
- 데이터 추출.변형.적재
- CDC(Change data capture)
- Data pooling and DB Streams
- 웹 서비스/SOA
- 감사 증적(audit trail)
- 교차 참조
- 다수 데이터 원천 및 목표 시스템
- 데이터 재 처리 허용
- 자동화 도구 및 자체 개발 SW 혼용

동기식 실시간 통합
- 실시간(Real Time)데이터 통합
- 목표 시스템 데이터 처리 가능시에만 원천 데이터 획득
- 데이터 추출.변형.적재
- 웹 서비스/SOA
- Single transaction integrations
- 단일 트랜잭션 단위 데이터 통합
- 데이터 재처리 불가
- 단일 또는 다수 데이터 원천
- 감사 증적

EAI(Enterprise Application Integration)

1. EAI 개요
EAI(Enterprise Application Integration)는 기업 정보 시스템들의 데이터를 연계.통합하는 소프트웨어 및 정보 시스템 아키텍처 프레임워로서, 기업 또는 기업 간 복수의 이질적 정보 시스템들의 데이터를 연계함으로써 상호 융화 내지 동기화돼 동작하도록 한다.

2. EAI 구현 유형
가. Mediation(intra-communication)
EAI 엔진의 중개자(Broker)로 동작하며, 틀정 정보 시스템 내 데이터 신규 생성 또는 갱신.신규 트랜잭션 완료(Commit)등 유의미한 이벤트 발생을 식별해, 사전 약속된 정보 시스템들에게 그 내용(데이터)을 전달 한다. Publish/subscribe Model

나. Federation(inter-communication)
EAI 엔진이 외부(고객 또는 파트너)정보 시스템으로부터의 데이터 요청들을 일괄적으로 수령해 필요한 데이터를 전달한다.

3. EAI 기대 효과
- 향후 정보 시스템 개발 및 유지 보수비용 절감 도모
- 기업 업무 정보 시스템들의 지속적 발전 기반 확보
- 협력사.파트너.고객과의 상호 협력 프로세스 연계 발전 기반 확보
-웹 서비스 등 인터넷 비즈니스를 위한 기본 토대

CDC(Change Data Capture)

1. CDC 개요
CDC(Change Data Capture) 는 데이터 베이스 내 데이터에 대한 변경을 식별해 필요한 후선 처리(데이터 전송/공유 등)를 자동화하는 기술 또는 설계 기법이자 구조이다.

가. Time Stamp on Rows
나. Version Numbers on Rows
다. Status on Rows
라. Time/Version/Status on Rows
마. Triggers on Tables
바. Event Programming
사. Log Scanner on Database

2017년 11월 28일 화요일

ETL(Extraction, Transformation and Load)

1. ETL 구성
- Extraction(추출) : 하나 또는 그 이상의 데이터 원천(Source)들로 부터 데이터 획득
- Transformation(변형): 데이터 클렌징.형식 변환.표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용 등
- Loading(적재): 위 변형 단계 처리가 완료된 데이터를 특정 목표 시스템에 적재

2. ODS 구성
ODS(Operational Data Store) : 데이터를 추출.통합한 데이터베이스

가. 인터페이스 단계
다양한 데이터 원천(Source)으로부터 데이터를 획득하는 단계
OLEDB(Object Linking and Embedding Database), ODBC(Object Data Base Connectivity), FTP(File Transfer Protocol) 등

나. 데이터 스테이징 단계
원천들로부터 트랜잭션 데이터들이 추출되어 하나 또는 그 이상의 스테이징 테이블에 저장된다.

다. 데이터 프로파일링 단계
- 선행 자료 또는 조건: 데이터 프로파일링 요건
- Step 1: (스테이징 테이블 내 데이터에 대한) 데이터 프로파일링 수행
- Step 2: 데이터 프로파일링 결과 통계 처리
- Step 3: 데이터 품질 보고서 생성 및 공유

라. 데이터 클렌징 단계
- 선행 자료 또는 조건: 데이터 품질 보고서, 데이터 클렌징 요건
- Step 1: 클렌징 스토어드 프로시져 실행(예비 작업)
- Step 2: 클렌징 ETL 도구 실행

마. 데이터 인크그레이션 단계
- 선행 자료 또는 조건: 데이터 클렌징 테이블, 데이터 충돌 판단 요건
- Step 1: 통합 스토어드 프로시저 실행(예비작업)
- Step 2: 통합 ETL 도구 실행

바. 익스포트 단계

3. 데이터 웨어하우스
- 주제 중심(Subject Oriented): 데이터 웨어하우스의 데이터는 실 업무 상항의 특정 이벤트나 업무 항목을 기준으로 구조화 한다.
- 영속성(Non Volatile): 데이터 웨어하우스의 데이터는 최초 저장 이후에는 읽기 전용(Read Only) 속성을 가지며 삭제되지 않는다.
- 통합성(Integrated): 데이터 웨어하우스의 데이터는 기과.조직이 보유한 대부분의 운영 시스템들에 의해 생성된 데이터들의 통합본이다.
- 시계열성(Time Variant):운영 시스템들은 최신 데이터를 보유하고 있지만, 데이터 웨어하우스는 시간순에 의한 이력 데이터를 보유한다.

데이터 웨어하우스의 데이블들은 스타 스키마(Star Schema)또는 스노우 플래이크 스키마(Snow Flake Schema)로 모델링 된다.

가. 스타 스키마
나. 스노우 플래이크 스키마

2017년 11월 27일 월요일

데이터 사이언스

1. 데이터 사이언스의 핵심 구성요소

-Analytics
-IT(Data management)
-비즈니스 분석

데이터 사이언스는 BI(Business Intelligence), BA(Business Analytics)등과 혼용되어 사용되며 상당이 포괄적인 의미를 담고 있다. 데이터 사이언스는 데이터 처리와 관련된 IT 영역들(signal processing, computer programming, data engineering, data warehousing, and high performance computing 등), 분석적 영역들(mathematics, probability models, machine learning, statistics, pattern recognition and learning, uncertainty modeling 등), 그리고 비즈니스 컨설팅의 영역들(communication, presentation, storytelling, visualization 등)을 포괄하고 있다.

2. 데이터 사이언티스트의 요구역량

2.1. Hard Skill
- 빅데이터에 대한 이론적 지시
: 관련 기법에 대한 이해와 방법론 습득

- 분석 기술에 대한 숙련
: 최적의 분석 설계 및 노하우 축적

2.2. Soft Skill
- 통찰력 있는 분석
: 창의적 사고, 호기심, 논리적 비판

- 설득력 있는 전달
: 스토리텔링, 비주얼라이제이션

- 다분야간 협력
: 커뮤니케이션

3. 미래 '가치 패러다임'의 변화
Digitalization => Connection => Agency