과제 형태로 도출된 분석 기회는 프로젝트를 통해서 그 가치를 증명하고 목표를 달성해야 한다. 분석 프로젝트는 다른 프로젝트 유형처럼 범위, 일정, 품질, 리스크, 의사소통 등 영역별 관리가 수행되어야 할 뿐 아니라 다양한 데이터에 기반한 분석 기법을 적용하는 특성 때문에 그림 과 같이 5가지의 주요 속성을 고려하여 추가적인 관리가 필요하다.
__________________________________________________________________________________________
- Data Size
분석하고자 하는 데이터의 양을 고려한 관리 방안 수립이 필요하다. 하둡 환경에서의 엄청난 데이터량을 기반으로 분석하는 것과 기존 정형 데이터베이스에 있는 시간당 생성되는 데이터를 분석할 때의 관리 방식은 차이가 날 수 밖에 없다.
- Data Complexity
BI(Business Intelligence) 프로젝트처럼 정형 데이터가 분석 마트로 구성되어 있는 상태에서 분석을 하는것과 달리 텍스트, 오디오, 비디오 등의 비정형 데이터 및 다양한 시스템에 산재되어 있는 원천 데이터들을 총합해서 분석 프로젝트를 진행할 때는, 초기 데이터의확보화 통합 뿐 아니라 해당 데이터에 잘 적용될 수 있는 분석 모델의 선정 등에 대한 사전 고려가 필요하다.
- Speed
분석 결과가 도출되었을 때 이를 활용하는 시나리오 측면에서는 속도를 고려해야 한다. 일단위, 주단위 실적의 경우에는 배치(Batch)형태로 작업이 되어도 무방하지만, 실시간으로 사기(Fraud)를 탐지하거나 고객에게 개인화된 상품.서비스를 추천하는 경우에는 분석 모델의 적용 및 계산이 실시간으로 수행되어야 하기 때문에 프로젝트 수행 시 분석 모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야 한다.
- Analytic Complexity
분석 모델의 정확도와 복잡도는 트레이드오프(Trade off)관계가 존재한다. 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지는 단점이 존재하므로 이에 대한 기준점을 사전에 정의해 두어야 한다. 고객의신용을 평가하는 마케팅 시나리오에서 분석모델을 활용하여 신용 점수가 낮게 나올 때 어떠한 변수에 기인했는지를 모델에서 설명해 줄 수 없으면 영업.마케팅 직원 입장에서는 해당 고객과의 소통이 어려워지는 단점이 존재하므로, 해석이 가능하면서도 정확도를 올릴수 있는 최적모델을 찾는 방안을 사전에 모색해야한다.
- Accuracy & Precision
Accuracy는 모델과 실제 값 사이의차이가 적다는 정확도를 의미하고 Precision은 모델을 지속적으로 반복했을 때의 편차의수준으로써 일관적으로 동일한 결과를 제시한다는 것을 의미한다. 분석의활용적인 측면에서는 Accuracy가 중요하며, 안정성 측면에서는 Precision이 중요하다. 그러나 Accuracy와 Precision은 트레이드오프가 되는 경우가 많기 때문에 모델의해석 및 적용 시 사전에 고려해야 한다.
1. 분석 프로젝트의 특성
분석가의 목표는 분석의 정확도를 높이는 것이지만 프로젝트의 관점에서는 도출된 분석 과제를 잘 구현하여원하는 결과를 얻고 사용자가 원활하게 활용할 수 있도록 전체적인 과정을 고려해야 하기 때문에 개별적인 분석 업무 수행뿐만 아니라 전반적인 프로젝트 관리 또한 중요한 일이다.
분석가의 입장에서 본다면, 데이터의 원천을 다루는 데이터 영역과 결과를 활요할 비즈니스 영역의 중간에서 분석 모델을 통한 조율을 수행하는 조정자의 역활이 핵심이 될 것이다. 특히 분석 프로젝트에서는 데이터 영역과비즈니스 영역의 현황을 이해하고 프로젝트의목표인 분석의 정화도 달성과 결과에 대한 가치 이해를 전달하는 조정자로써의 분석가의 역할이 중요하다. 조정자로서의 분석가가 해당 프로젝트의 관리자까지 겸임하게 되는 경우가 대부분이므로 프로젝트 관리 방안에 대한 이해와 주요 관리 포인트를 사전에 숙지하는 것이 필수적이다.
또한 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 어자일(Agile)프로젝트 관리방식에 대한 고려도 필요하다. 데이터 분석의 지속적인 반복 및 개선을 통하여 의도 했던 결과에 더욱 가까워지는 형태로 프로젝트가 진행될 수 있도록 적절한 관리 방안 수립이 사전에 필요하다.
앞서 살펴본 것처럼, 분석 프로젝트는데이터 영역과 비즈니스 영역에 대한 이해뿐만 아니라 지속적인 반복이 요구되는 분석 프로세스의 특성을 이해한 프로젝트 관리 방안을 수립하는 것이 중요하다. 분석 과제정의서를 기반으로 프로젝트를 시작하되 지속적인 개선 및 변경을 염두에 두고 기간 내에 가능한 최선의 결과를 도출할 수 있도록 프로젝트 구성원들과 협업하는 것이 분석 프로젝트의 특징이다.
2. 분석 프로젝트 관리방안
분석 프로젝트는 데이터 분석의 특성을 살려 프로젝트관리 지침(Guidence on Project Management, KS A ISO 21500:2013)을 기본 가이드로 활용할 필요가 있다. 프로젝트관리 지침의프로젝트 관리 체계는 통합(Integration), 이해관계자(Stakeholder), 범위(Scope), 자원(Resource), 시간(Time), 원가(Cost), 리스크(Risk), 품질(Quality), 조달(Procurement),의사소통(Communication)의 10개의주제 그룹으로 구성되어 있다.
주제그룹 개념 및 관련 프로세스
통합 프로젝트와 관련된 다양한 활동과 프로세스를 도출, 정의, 결합,단일화, 조정, 통제, 종료 에 필요한 프로세스
이해관계자 프로젝트 스폰서, 고객사, 기타 이해관계자를 식별하고 관리하는데 필요한 프로세스
범위 작업과 인도물을 식별하고 정의하는데 요구되는 프로세스
자원 인력, 시설, 장비, 자재, 기반 시설, 도구와 같은 적절한 프로젝트 자원을 식별하고 확보
하는데 필요한 프로세스
시간 프로젝트 활동의 일정을 수립하고 일정 통제의 진척상황을 관찰하는데 요구되는 프로세스
원가 예산 개발과 원가통제의 진척상황을 관찰하는데 요구되는 프로세스를 포함
리스크 위험과 기회를 식별하고 관리하는 프로세스
품질 품질보증과 품질통제를 계획하고확립하는데 요구되는 프로세스
조달 계획에 요구된 프로세스를 포함하며 제품 및 서비스 또는 인도물을 인수하고 공급자와의
관계를 관리하는데 요구되는 프로세스
의사소통 프로젝트와 관련된 정보를 계획, 관리, 배포하는데 요구되는 프로세스
특히 분석 프로젝트의경우에는 각각의 관리영역에서 일반 프로젝트와 다르게 좀 더 유의해야 할 요소가 존재한다. 각 영역에서 분석 프로젝트가 가지게 되는 특성과 고려해야 할 주요 관리 항목은 [표 3-1-3] 와 같다.
분석가가 분석 프로젝트에서 프로젝트 관리자의 역할을 수행하는 경우가 대부분이기 때문에 프로젝트 관리 영역에 대한 주요한 사항들은 체크포인트 형태로 관리해서 발생할 수 있는 이슈와 리스크를 숙지하고미연에 방지할 필요가 있다.
[표 3-1-3] 분석 프로젝트 영역별 주요 관리 항목
관리 영역 분석 프로젝트의특성 및 주요 관리 항목
범위 - 분석 기획단계의 프로젝트 범위가 분석을 진행하면서 데이터의 형태와 양 또는 적용 (Scope) 되는 모델의 알고리즘에 따라 범위가 빈번하게 변경됨
- 분석의 최종 결과물이 분석 보고서 형태인지 시스템인지에 따라서 투입되는 자원 및 범위가 크게 변경되므로 사전에 충분한 고려가 필요함
시간(Time) - 데이터 분석 프로젝트는 초기에 의도했던 결과(모델)가 나오기 쉽지 않기 때문에
지속적으로 반복되어 많은 시간이 소요될 수 있음
- 분석 결과에 대한 품질이 보장된다는 전제로 Time Boxing 기법으로일정 관리를
진행하는 것이 필요함
원가(Cost) - 외부 데이터를 활요한 데이터 분석인 경우 고가의비용이 소요될 수 있으므로 사전에
충분한 조사가 필요함
- 오픈소스 도구(Tool) 외에 프로젝트 수행 시 의도했던 결과를 달성하기 위하여 상용
버전의도구(Tool)가 필요할 수 있음(예: 가시화를 위한 BI 솔루션, 지리정보 표기를
위한 GIS 솔루션 등)
품질(Quality) -분석 프로젝트를 수행한 결과에 대한 품질목표를 사전에 수립하여 확정해야 함
- 프로젝트 품질은 품질통제(Quality Control)와 품질보증(Quality Assurance)으로 나누어 수행되어야 함
통합 - 프로젝트관리 프로세스들이 통합적으로 운영될 수 있도록 관리함
(Integration)
조달 - 프로젝트 목적성에 맞는 외부 소싱을 적절하게 운영할 필요가 있음
(Procurement) -PoC(Proof of Concept)형태의 프로젝트는 인프라 구매가 아닌 클라우드 등의 다양한
방안을 검토할 필요가 있음
자원 - 고급 분석 및 빅데이터 아키텍쳐링을 수행할 수 있는 인력의 공급이 부족하므로
(Resource) 프로텍트 수행 전 전문가 확보 검토 필요
리스크 -분석에 필요한 데이터 미확보로 분석 프로젝트 진행이 어려울 수 있어 관련 위험을
(Risk) 식별하고 대응방안을 사전에 수립해야 함
- 데이터 및 분석 알고리즘의 한계로 품질목표를 달성하기 어려울 수 있어 대응 방안을 수립할 필요가 있음
의사소통 -전문성이 요구되느 데이터 분석의 결과를 모든 프로젝트 이해관계자(Stakeholders)가
(Communication) 공유할 수 있도록 해야 함
- 프로젝트의원할한 진행을 위한 다양한 의사소통체계 마련 필요
이해관계자 - 데이터 분석 프로젝트는 데이터 전문가, 비즈니스 전문가, 분석 전문가, 시스템 전문가
(Stakeholder) 등 다양한 전문가가 참여하므로 이해관계자의 식별과 관리가 필요함.
2018년 1월 7일 일요일
제3절 분석 과제 발굴
분석 과제는 풀어야 할 다양한 문제를 데이터 분석 문제로 변환한 후 이해관계자들이 이해하고 프로젝트로 수행할 수 있는 과제정의서 형태로 도출된다. 분석 과제를 도출하기 위한 방식은 크게 2가지로 나누어진다.
- 하향식 접근 방식(Top Down Approach)
문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식
- 상향식 접근 방식(Bottom Up Approach)
문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결 방안을 탐새갛고 이를 지속적으로 개선하는 방식
문제가 주어져 잇는 상태에서 답을 구하는 하향식 접근 방식이 전통적으로 수행되었던 분석 과제 발굴 방식이다. 그러나 대규모의 다양한 데이터를 생성하고 빠르게 변하는 기업환경에서는 문제 자체의 변화가 심해 정확하게 문제를 사전에 정의하는 것이 어려워지고 있다. 이에 따라 단순히 주어진 문제를 잘 푸는 것뿐만 아니라 데이터를 활용하여 생각하지 못했던 인사이트(Insight)를 도출하고 시행착오를 통해서 개선해가는 상향식 접근 방식의 유용성이 점차 증가하고 있는 추세이다.
__________________________________________________________________
그림에 나와 있는 디자인 사고(Deging Thinking)프로세스의 예처럼 새로운 상품을 개발하거나 전략 수립 등 중요한 의사결정을 할 때 가능한 오션을 도축하는 상향식 접근 방식(Bottom Up Approach)의 발산(Diverge)단계와 도출된 옵션을 분석하고 검증하는 하향식 접근 방식(Top Down Approach)의 수렵(Converge)단계를 반복적으로 수행하는 식으로 상호 본완하는 것이 동적인 환경에서 분석의 가치를 높일수 있는 최적의 의사결정 방식이 된다.
분석 과제 발굴을 두가지 접근 방식으로 나누었지만 실제 분석 과정에서는 혼용되어 활용되는 경우가 많다. 그런 경우 능동적으로 대처하기 위해서 각 접근 방식의 특징을 잘 이해하고 적절한 절차 및 관리 방안의 활용이 필요하다.
1. 하향식 접근법(Top Down Approach)
하향식 분석 접근법은 현황 분석을 통해서 또는 인식된 문제점 혹은 전략으로부터 기회나 문제를 탐색(Probleam Discovery)하고 해당 문제를 데이터 문제로 정의(Problem Definition)한 후 해결방안 탐색(Solution Search), 그리고 데이터 분석의 타당성 평가(Feasibility Study)를 거쳐 분석 과제를 도출하는 과정으로 이루어져 진다.
가. 문제 탑색(Problem Discovery) 단계
개별적으로 인지하고 있는 문제를 단순히 정리하는 것보다 전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출하고 식별하는 것이 중요하다. 전체적인 관점의 기준 모델로는 기업 내.외부 환경을 포괄하는 비즈니스 모델과 외부 참조모델이 있다. 과제 발굴 단계에서는 현재 데이터를 소유하고 있는지, 이를 해결하기 위한 방안은 무엇인지 등에 대한 세부적인 구현 및 솔루션에 중점을 두는것이 아니라 문제를 해결함으로써 발생하는 가치에 중점을 두는것이 중요하다.
1) 비즈니스 모델 기반 문제 탐색
과제 발굴을 위한 기본 틀로써 기업 내.외부 환경을 포괄하는 비즈니스 모델이라는 틀(Frame)을 활용하여 가치가 창출될 문제를 노락없이 도출할 수 있다. 비즈니스 모델 관점에서는 해당기업의 사업 모델을 도식화한 비즈니스 모델 캔버스의 9가지 블록을 단순화하여 업무(Operation), 제품(Product), 고객(Customer) 단위로 문제를 발굴하고, 이를 관리하는 두 가지의 영역인 규제와 감사(Audit & Regulation)영역과 지원 인프라(IT & Human Resource) 영역에 대한 기회를 추가로 도축하는 작업을 수행한다.
1) 업무(Operation)
제품 및 서비스를 생산하기 위해서 운영하는 내부 프로세스 및 주용 자원(Resource)관련 주제 도출
예) 생산 공정 최적화, 재고량 최소화 등
2) 제품(Product)
생산 및 제공하는 페품.서비스를 개선하기 위한 관련 주제 도출
예) 제품의 주요 기능 개선, 서비스 모니터링 지표 도출 등
3) 고객(Customer)
제품.서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출
예) 고객 Call 대기 시간 최소화, 영업점 위치 최적화 등
4) 규제와 감사(Regulation & Audit)
제품.서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출
예) 제공 서비스 품질의 이상 징후 관리, 새로운환경 규제 시 예상되는 제품 추출 등
5) 지원 인프라(IT & Human Resource)
분석을 수행하는 시스템 영역 및 이를 운영.관리하는 인력의 관점에서 주제 도출
예) EDW 최적화, 적정 운영 인력 도출 등
현재의 사업 방식 및 비즈니스에 대한 문제 해결은 최적화 및 단기 과제 형식으로 도출될 가능성이 높기 때문에 새로운 문제의 발굴 및 장기적인 접근을 위해서는 기업이 현재 수행하고 있는 비즈니스뿐만 아니라 환경과 경쟁 구조의 변화 및 역량의 재해석을 통한 "혁신(Innovation)"의 관점에서 분석 기회를 추가 도출하는 것이 요구된다. 즉, 현재 사업을 영위하고 있는 환경, 경쟁자, 보유하고 있는 역량, 제공하고 있는 시장 등을 넘어서 거시적 관점의 요인, 경쟁자의 동향, 시장의 니즈 변화, 역량의 재해석 등 새로운 관점의 접근을 통해 새로운 유형의 분석 기회 및 주제 발굴을 수행해야 한다. 이러한 작업을 수행할 때는 분석가뿐만 아니라 해당 기능을 수행하는 직원 및 관련자에 대한 폭넓은 인터뷰와 워크숍 형태의 아이디어 발굴(Ideation)작업이 필요하다.
1) 거시적 관점의 메가 트렌드에서는 현재의 조직 및 해당 산업에 폭넓게 영향을 미치는 사회.경제적 용인을 STEEP로 요약되는 Social(사회), Technological(기술), Economic(경제), Environmental(환경), Political(정치) 영역으로나누어서 좀 더 폭넓게 기회 탐색을 수행한다.
- 사회(Social) 영역
비즈니스 모델의 고객(Customer)영역에 존재하는 현재 고객을 확장하여 전체 시장을 대상으로 사회적 문화적, 구조적 트렌드 변화에 기반한 분석 기회 도출
예) 노령화, 밀레니얼 세대의 등장, 저출산에 따른 해당 사업 모델의 변화 등
- 기술(Technological) 영역
과학, 기술, 의학 등 최신기술의 등장 및 변화에 따른 역량 내재화와 제품.서비스 개발에 대한 분석 기회 도출
예) 나노 기술, IT 융합 기술, 로봇 기술의 고도화에 따른 기존 제품의 Smart화 등
- 경제(Economic) 영역
산업과 금융 전반의 변동성 및 경제 구조 변화 동향에 따른 시장의 흐름을 파악하고 이에 대한 분석 기회 도출
예) 원자재 가격, 환율, 금리 변동에 따른 구매 전략의 변화 등
- 환경(Environmental) 영역
환경과 관련된 정부, 사회단체, 시민사회의 관심과 규체 동향을 파악하고 이에 대한 분석 기회 도출
예) 탄소 배출 규제 및 거래 시장 등장에 따른 원가 절감 및 정보 가시화 등
- 정치(Political) 영역
주요 정책방향, 정세, 지정학적 동향 등의 거시적인 흐름을 토대로 한 분석 기회 도출
예) 대북 관계 동향에 따른 원자재 구매 거래선의 다변화 등
2)경쟁자 확대 관점에서는 현재 수행하고 있는 사업 영역의 직접 경쟁사 및 제품.서비스뿐만 아니라 대체재와 신규 진입자 등으로 관점을 확대하여 위협이 될 수 있는 상황에 대한 분석 기회 발굴의 폭을 넓혀서 탐색한다.
- 대체제(Substitute) 영역
융합적인 경쟁 환경에서 현재 생산을 수행하고있는 제품.서비스의 대체재를 파악하고 이를 고려한 분석 기회 도출
예) 현재 오프라인으로 제공하고 있는 자사의 상품.서비스를 온라인으로 제공하는 것에 대한 탐색 및 잠재적 위협 파악
- 경쟁자(Competitor) 영역
현재 생산하고 있는 제품.서비스의 주요 경쟁자에 대한 동향을 파악하여 이를 고려한 분석 기회 도출
예) 식별된 주요 경쟁사의 제품.서비스 카탈로그 및 전략을 분석하고 이에 대한 잠재적 위협 파악
- 신규 진입자(New Entrant) 영역
현재 직접적인 제품.서비스의 경쟁자는 아니지만, 향후 시장에 대해서 파괴적인 역할을 수행할 수 있는 신규 진입자에 대한 동향을 파악하여 이를 고려한 분석 기회 도출
예) 새로운 제품에 대한 크라우드 소싱(Crowd Sourcing) 서비스인 Kickstarter의 유사 제품을 분석하고 자사의 제품에 대한 잠재적 위협 파악
3) 시장의 니즈 탐색 관점에서는 현재 수행하고 있는 사업에서의 직접 고객 뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널(Channel) 및 고객의 구매와 의사결정에 영향을 미치는 영향자들(Influencer)에 대한 폭넓은 관점을 바탕으로 분석 기회를 탐색한다.
- 고객(Customer) 영역
고객의 구매 동향 및 고객의 컨텍스트를 더욱 깊게 이해하여 제품.서비스의 개선 필요에 필요한 분석 기회 도출.
예) 철강 기업의 경우 조선 산업과 자동차 산업의 동향 및 주요 거래선의 경영 현황 등을 파악하고 분석 기회 도출 등
- 채널(Channel) 영역
영업 사원, 직판 대리점, 홈페이지 등의 자체적으로 운영하는 채널뿐만 아니라 최종 고객에게 상품.서비스를 전달하는 것에 경로로 존재하는 가능한 경로를 파악하여 해당 경로에 존재하는 채널별로 분석 기회를 확대하여 탐색
예) 은행의 경우 인터넷전문은행 등 온라인 채널의 등장에 따른 변화에 대한 전략 분석 기회 도출 등
- 영향자들(Influencer) 영역
기업 의사결정에 영향을 미치는 주주.투자자.협회 및 기타 이해관계가즤 주요 관심사항에 대해서 파악하고 분석기회 탐색
예)M&A 시장 확대에 따른 유사 업종의 신규 기업 인수 기회 탐색 등
4) 역량의 재해석 관점에서는 현재 해당 조직 및 기업이 보유한 역량뿐만 아니라 해당 조직의 비즈니스에 영향을 끼치는 파트너 너트워크를 포함한 활용 가능한 역량을 토대로 폴넓은 분석 기회를 탐색한다.
- 내부 역량(Competency) 영역
지적 재산권, 기술력 등 기본적인 것 뿐만 아니라 중요하면서도 자칫 간과하기 쉬운 지식, 기술, 스킬등의 노하우와 인프라적인 유형 자산에 대해서 폭넓게 재해석하고 해당 영역에서 분석 기회를 탐색한다.
예) 자사 소유 부동산을 활용한 부가 가치 창출 기회 발굴 등
- 파트너와 네트워크(Partners & Network) 영역
자사가 직접 보유하고 있지는 않지만 밀접한 관계를 유지하고 이쓴 관계사와공급사 등의 역량을 활용해 수행할 수 있는 기능을 파악해보고 이에 대한 분석 기회를 추가적으로도출
예) 수출입.통관 노하우를 활용한 추가 사업기회 탐색 등
2) 외부 참조 모델 기반 문제 탐색
잘 알려진 분제를 푸는 것뿐만 아니라 새로운 문제를 발굴하기 위해서는(문제와 과제를 도출해 내는 기준 모델로서) 유사.동종의 환경에서 기존에 수행한 분석 과제를 살펴보는 것도 주요한 시사점을 도출해 준다.
유사.동종 사례 벤치마킹을 통한 분석기회 발굴은 제공되는 산업별, 업무 서비스별 분석테마 후보 그룹(Pool)을 통해 "Quick & Easy"방식으로 필요한 분석 기회가 무엇인지에 대한 아이디어를 얻고 기업에 적용할 분석테마 후보 목록을 위크숍 형태의 브레인스토밍(Brain Storming)을 통해 빠르게 도출하는 방법이다.
특히 현재 환경에서는 데이터를 활용하지 않은 업종 및 서비스가 사실상 존재하지 않기 때문에 데이터를 분석을 통한 인사이트(Insight)를 도출하고 업무에 활용하는 사례들을 발굴하여 자사의 업종 및 업무 서비스 에 적용할 수 있다. 따라서 산업 및 업종을 불문하고 데이터 분석 사례를 기반으로 분석테마 후보 그룹을 미리 정의하고 그 후보 그룹을 통해 해당 기업에 벤치마킹할 대상인 분석기회를 고려한다면 빠르고 쉽게 분석기회를 도출할 수 있다.
평상시 지속적인 조사와 데이터 분석을 통한 가치 발굴 사례를 정리하여 풀(Pool)로 만들어 둔다면 과제 발굴 및 탐색 시 빠르고 의미 있는 분석 기회 도출이 가능하다. 또한 유사.동종 업계뿐만 아니라 타 업종 및 분양의 데이터 부석 활용 사례 또한 정리해 놓을 경우 새로운 주제 탐색에 도움이 된다.
3) 분석 유즈 게이스(Analytics Use Case) 정의
현재의 비즈니스 모델 및 유사.동종사례 탐색을 통해서 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기에 앞서 분석 유즈 게이스로 표기하는 것이 필요하다. 분석 유즈케이스는 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 한다.
분석 유즈 케이스 예시
업무 분석 유즈 게이스 설명 효과
재무 자금 시재 예측 일별로 예정된 자금 지출과 입금을 추정 자금 과부족 현상 예방,
자금 운용 효율화
구매 최적화 구매 유형과 구매자별로 과거 실적과 구매 구매 비용 절감
조건을 비교.분석하여 구매 방안 도출
고객 서비스 수준 유지 서비스별로 달성 수준을 측정하고 평가한 품질수준 제고,
뒤 목표 수준을 벗아났으면 경보 발행 고객만족 제고
고개간족 달성 고객 세그먼트별로 만족 수준을 측정하고 고객만족 제고,
이상이 있으면 원인을 분석하여 대책 강구 고객유지 향상
파이프라인 최적화 파이프라인 단계별로 고객 상태를 파악하고 목표 매추 달성,
수조 규모를 예상하여 필요한 고객 기회를 고객반응률 향상
추정하여 영업 촉진
판매 영업성과 분석 영업 직원별 사용 원가(급여 포함)와 실적을 영업 수율 향상,
분석하고 부진한 영업 직원 세그먼트를 식별 영업 직원 생산성 제고
하여 영업 정책에 반영
나. 문제 정의(Problem Definition)단계
식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계이다. 앞서 수행한 문제 탐색의 단계가 무엇을(What) 어떤 목적으로(Why)수행해야 하는지에 대한 과점이었다면, 본 단계에서는 이를 달성하기 위해서 필요한 데이터 및 기법(How)을 정의하기 위한 데이터 분석의 문제로의 변환을 수행하게 된다. 예를 들어, '고객 이탈의 증대'라는 비즈니스 문제는 '고객의 이탈에 영향을 미치는 요인을 식별하고 이탈 가능성을 예측'하는 데이터 분석 문제로 변환될 수 있다.
데이터 분석 문제의 정의 및 요구사항은 분석을 수행하는 당사자뿐만 아니라 해당 문제가 혜결되었을 때 효요을 얻을 수 있는 최종사용자(End User)과전ㅁ에서 이루어져야 한다. 데이터 분석 문제가 잘 정의되었을때 필요한 데이터의 정의 및 기법 발굴이 용이하기 때문에 가능한 정확하게 분석의 관점으로 문제를 재정의할 필요가 있다.
다. 해결방안 탐색(Solution Search)단계
이 단계에서는 정의된 데이터 분석 문제를 해결하기 위한 다양한 방안이 모색된다. 동일한 데이터 분석문제라 해도 어떤 데이터 또는 분석 시스템을 사용할 것인지에 따라서 소용되는 예산 및 활용 가능한 도구(Tool)가 다르기 때문에 다각도로 고려할 필요가 있다. 즉, 기존 정보시스템의 단순한 보완으로 분석이 가능한지, 엑셀 등의 간단한 도구로 분석이 가능한지, 또는 하둡 등 분산 병렬처리를 활용한 빅데이터 분석 도구를 통해 보다 체계적이고 심도 있는 방안이 고려되는지 등등 여러 대안이 도출될 수 있다. 또한 분석 역량을 기존에 가지고 있는 지의 여부를 파악하여 보유하고 있지 않은 경우에는 교육이나 전문 인력 채용을 통한 역량을 확보하거나 분석 전문 업체를 활용하여 과제를 해결하는 방안에 대해 사전 검토를 수행한다.
라. 타당성 검토(Feasibility Study)단계
도출된 분석 문제나 가설에 대한 대안을 과제화하기 위해서는 다음과 같은 다각적인 타당성 분석이 수행되어야 한다.
1) 경제적 타당성
비용 대비 편익 분석 관점의 접근이 필요하다. 비용 항목은 데이터, 시스템, 인력, 유지보수 등과 같은 분석 비용으로 구성된다. 편익으로는 분석 결과를 적용함으로서 실질적 비용 절감, 추가적 매출과 수익 등과 같은 경제적 가치로 산출된다.
2) 데이터 및 기술적 타당성
데이터 분석에는 데이터 존재 여부, 분석 시스템 환경, 그리고 분석 역량이 필요하다. 특히, 분석 역량의 경우 그림 처럼 실제 프로젝트 수행 시 걸림돌이 되는 경우가 많기 때문에 기술적 타당성 분석시 역량 확보 방안을 사전에 수립해야 한다. 이를 효과적으로 평가하기 위해서는 비즈니스 지식과 기술적지식이 요구되기 때문에 비즈니스 분석가, 데이터 분석가, 시스템 엔지니어 등과의 협업이 수반되어야 한다.
______________________________________________________________________________________________________
도출된 여러 대안 중에서 평가 과정을 거쳐 가장 우월한 대안을 선택한다. 도출한 데이터 분석 문제 및 선정된 솔루션 방안을 포함하여 이를 분석 과제 정의서의 형태로 명시하는 후속작업을 시행하며 이는 프로젝트 계획의 입력물로 활용횐다.
2. 상향식 접근법(Bottom Up Approach)
한 의약제조사는 특허기간이 만료된 의약품 약 2천 종류의 데이터를 분석, 상호 결합하여 새로운 의약품을 개발하려고 시도하였다. 의약품 집합으로부터 두 개의 조합을 선택할 수 있는 방법은 백만 개 이상이기 때문에 이 회사는 새로운 결합의 효과성을 검정하기 위하여 다양한 기법을 적용하여 데이터를 분석하였다. 이런한 분석 사례는 절차가 규정된 하향식 문제해결 방식이 아니라 경험적인 과거 데이터를 무작정 결합하여 상향식으로 정보 혹은 지식을 얻고자 하는 새로운 분석 패러다임이라 할 수 있다.
여기에서는 전통적인 하향식 문제 해결 방식과 대비하여 기업에서 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 상향식 접근방법을 기술한다. 사향식 접근방법은 그림처럼 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 잇는 문제를 도출하는 일련의 과정이다.
- 기존 하향식 접근법의 한계를 극복하기위한 분석 방법론
지금까지 가장 일반적으로 사용되고 있는 문제 해결 방식은 앞서 설명한 것과 같은 하향식의 놀리적인 단계별 접근법이다. 기존 접근 방법인 논리적인 단계별 접근법은 문제의 구조가 분영하고 문제를 해결하고 해결책을 도출하기위한 데이터가 분석가 및 의사결정자에게 주어져 있음을 가정하고 있기 때문에 솔루션 도출에는 유효하지만 새로운 문제의 탐색에는 한계가 있다. 따라서 기존의 논리적인 단계별 접근법에 기반한 문제해결 방식은 최근 복잡하고 다양한 환경에서 발생하는 문제에는 적합하지 않을 수 있다.
이를 해결하기 위새서 스탠포드 대학의 d.shool(Institute of Design at Stanford)은 디자인 사고(Design Thinking)접근법을 통해서 전동적인 분석적 사고를 극복하려고 한다. "이미 우리가 알고 있는 것" 즉 분석가의 문제에 대한 분석 접근법의 한계를 극복하기 위해서 현장 관찰과 감정이입, 즉 대상의 관점으로의 전환을 수행한다. 통상적인 관점에서는 분석적으로 사물을 인식하려는 'Why'를 갖오하지만, 이는 우리가 알고 있다고가정하는 것이기 때문에 문제와 맞지 않는 솔류션인 경우 오류가 발생할 소지가 있다. 그렇기 때문에, 답을 미리 내는 것이 아니라 사물을 있는 그대로 인식하는 'What' 관점에서 보아야 한다는 것이다. 객과적으로 존재하는 데이터 그 자체를 관찰하고 실제적으로 행동에 옮김으로써 대상을 좀 잘 이해하는 장식으로의 접근을 수행하는 것이다. 이와 같은 점을 고려하여 d.school 에서는 첫 단계로 감정이임(Empathize)을 강조하고 있다.
_______________________________________________________________________________________________
일반적으로 상향식 접근 방식의 데이터 분석은 비지도학습(Unsupervised Learning)방법에 의해 수행된다. 비지도학습은 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것이다. 데이터 마이닝 기법을 예로들면, 장바구니 분석, 근집 분석, 기술 통계 및 프로파일링 등이 이에 속한다.
이와 반대로 명확한 목적하에 데이터분석을 실시하는 것은 지도학습(Supervised Learning)이라고하며 분류, 추측, 예측, 최적화를 통해 사용자의 주도 하에 분석을 실시하고 지식을 도축하는 것이 목적이다. 예를 들어서 그림에서 O와 X를 구분 짓게 하는 분류(Classification)는 지도학습에 해당되고, 인자들 간의 유사성을 바탕으로 수행하는 군집화(Clustering)는 비지도학습에 해당한다. 지도학습의 경우 결과로 도출되는 값에 대새서 사전에 인지하고 어떠한 데이터를 넣었을 때 어떠한 결과가 나올지를 예츨하는것이라면 비지도학습의 경우 목표값을 사전에 정의하지 않고 데이터 자체만을 가지고 그룹들을 도출함으로써 해석이 용이하지는 않지만 새로운 유형의 인사이트를 도출하기에 유용한 방식으로 활용할 수 있다.
__________________________________________________________________________________________________
통계적 분석에서는 인과관계 분석을 위해 가설 을 설정하고 이를 검정하기 위해 모집단으로부터 표본을 추출하고 그 표본을 이용한 가설검정을 실시하는 방식으로 문제를 해결하였다. 그러나 빅데이터 환경에서는 이와 같은 노리적인 인과관계 분석뿐만 아니라 상관과계 분석 또는 연관 분석을 통하여 다양한 문제 해결에 도움을 받을 수 있다. 즉, 인과관계(Know-why)로 부터 상관관계(Know-affinity)분석으로의 이동이 빅데이터 분석에서의 주요 변화라고 할 수 있다. 다양의 데이터 분석을 통해서 "왜" 그러한 일이 발생하는지 역으로 추적하면서 문제를 도출하거나 재정의 할 수 있는 것이 상향식 접근 방법이다.
- 시행착오를 통한 문제 해결
프로토타이핑(Prototyping)접근법은 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해 보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법을 말한다. 하향식 접근방식은 문제가 정형화되어 있고 문제해결을 위한 데이터가 완벽하게 조직에 존재할 경우에 효과적이다. 이에 반하여, 프로토타이핑 방법론은 비록 완전하지는 못하다 해도 신속하게 해결책이나 모형을 제시함으로써 이를 바탕으로 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있게 하는 유용한 상향식 접근 방식이다.
프로토타이핑 접근법의 기본적인 프로세스는 가설의 생성(Hypotheses), 디자인에 대한 실험(Design Experiments), 실제 환경에서의 테스트(Test), 테스트 결과에서의 통찰(Insight) 도출 및 가설 확인으로 구성된다. 학습이라는 목표를 가지고 잘 설계된 프로토타이핑을 지속하는 경우에, 실험이 가지고 있는 불명확성(Uncertainty)은 감소하고 의도했던 결과를 도출할 수 있는 성공 가능성은 높아진다. 한 번의 분석을 통해서 의도했던 겨로가가 나오기 쉽지 않은 동적인 환경에서 최대한 빨리 결과를 보여주고 해당 내용을 토대로 지속적인 반복을 수행하는 프로토타이핑 방식이 빅데이터 분석 환경에서는 보다 유용하다고 알려져 있다.
빅데이터 분석 환경에서 프로토타이핑의 필요성을 상세히 정리하면 다음과 같다.
- 문제에 대한 인식 수준: 문제 정의가 불명확하거나 이전에 접해보지 못한 새로운 문제일 경우 사용자 및 이해 관계자는 프로토타입을 이용하여 문제를 이해하고 이를 바탕으로 구체화하는데 도움을 받을 수 있다.
- 필요 데이터 준재 여부의 불확실성: 문제 해결을 위해 필요한 데이터의 집합이 모두 존재하지 않을 경우, 그 데이터의 수집을 어떻게 할 것인지 또는 그 데이터를 다른 데이터로 대체할 것인지 등에 대한 데이터 사용자와 분석가 간의 반복적이고 순환적인 협의 과정이 필요하다. 대체 불가능한 데이터가 존재하는지 사전에 확인한다면 불가능한 프로젝트를 수행하는 리스크를 사전에 방지할 수 있다.
- 데이터의 사용목적의 가변성: 데이터의 가치는 사전에 정해진 수집목적에 따라 확정되는 것이 아니고 그 가치가 지속적으로 변화할 수 있다. 따라서 조직에서 보유중인 데이터라 하더라도 기존의 데이터정의를 재검토하여 데이터의 사용목적과 범위를 확대할 수 있을 것이다. 예를 들면, 이동통신사에서 수집하는 사용자의 위치추적은 사용자의 호울을 효율적으로 처리하기 위한 원래의 목적으로부터, 사용자들의 즉정 시간에 많이 모이는 장소가 어디 인가를 분석하는 정보로 활용이 가능하다.
3. 분석과제 정의
다양한 방식을 통해서 도출한 분석과제를 분석과제 정의서 양식을 활용하여 보다 상세하게 정의한다.
분석과제 정의서는 향후 프로젝트 수행계획의입력물로 사용되기 때문에 프로젝트 수행하는 이해관계자가 프로젝트의 방향을 설정하고 성공여부를 판별할 수 있는 주요한 자료로서 명확하게 작성되어야 한다.
분석과제 정의서를 통해 분석별로 필요한 소스 데이터, 분석방법, 데이터 입수 및 분석의 난이도, 분석수행주기, 분석결과에 대한 검증 오너십, 상세 분석 과정 등을 정의한다. 분석 데이터 소스는 내.외부의 비구조적인 데이터와 소셜 미디어및 오픈 데이터까지 범위를 확장하여 고려하고 분석 방법 또한 상세하게 작성한다.
- 하향식 접근 방식(Top Down Approach)
문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식
- 상향식 접근 방식(Bottom Up Approach)
문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결 방안을 탐새갛고 이를 지속적으로 개선하는 방식
문제가 주어져 잇는 상태에서 답을 구하는 하향식 접근 방식이 전통적으로 수행되었던 분석 과제 발굴 방식이다. 그러나 대규모의 다양한 데이터를 생성하고 빠르게 변하는 기업환경에서는 문제 자체의 변화가 심해 정확하게 문제를 사전에 정의하는 것이 어려워지고 있다. 이에 따라 단순히 주어진 문제를 잘 푸는 것뿐만 아니라 데이터를 활용하여 생각하지 못했던 인사이트(Insight)를 도출하고 시행착오를 통해서 개선해가는 상향식 접근 방식의 유용성이 점차 증가하고 있는 추세이다.
__________________________________________________________________
그림에 나와 있는 디자인 사고(Deging Thinking)프로세스의 예처럼 새로운 상품을 개발하거나 전략 수립 등 중요한 의사결정을 할 때 가능한 오션을 도축하는 상향식 접근 방식(Bottom Up Approach)의 발산(Diverge)단계와 도출된 옵션을 분석하고 검증하는 하향식 접근 방식(Top Down Approach)의 수렵(Converge)단계를 반복적으로 수행하는 식으로 상호 본완하는 것이 동적인 환경에서 분석의 가치를 높일수 있는 최적의 의사결정 방식이 된다.
분석 과제 발굴을 두가지 접근 방식으로 나누었지만 실제 분석 과정에서는 혼용되어 활용되는 경우가 많다. 그런 경우 능동적으로 대처하기 위해서 각 접근 방식의 특징을 잘 이해하고 적절한 절차 및 관리 방안의 활용이 필요하다.
1. 하향식 접근법(Top Down Approach)
하향식 분석 접근법은 현황 분석을 통해서 또는 인식된 문제점 혹은 전략으로부터 기회나 문제를 탐색(Probleam Discovery)하고 해당 문제를 데이터 문제로 정의(Problem Definition)한 후 해결방안 탐색(Solution Search), 그리고 데이터 분석의 타당성 평가(Feasibility Study)를 거쳐 분석 과제를 도출하는 과정으로 이루어져 진다.
가. 문제 탑색(Problem Discovery) 단계
개별적으로 인지하고 있는 문제를 단순히 정리하는 것보다 전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출하고 식별하는 것이 중요하다. 전체적인 관점의 기준 모델로는 기업 내.외부 환경을 포괄하는 비즈니스 모델과 외부 참조모델이 있다. 과제 발굴 단계에서는 현재 데이터를 소유하고 있는지, 이를 해결하기 위한 방안은 무엇인지 등에 대한 세부적인 구현 및 솔루션에 중점을 두는것이 아니라 문제를 해결함으로써 발생하는 가치에 중점을 두는것이 중요하다.
1) 비즈니스 모델 기반 문제 탐색
과제 발굴을 위한 기본 틀로써 기업 내.외부 환경을 포괄하는 비즈니스 모델이라는 틀(Frame)을 활용하여 가치가 창출될 문제를 노락없이 도출할 수 있다. 비즈니스 모델 관점에서는 해당기업의 사업 모델을 도식화한 비즈니스 모델 캔버스의 9가지 블록을 단순화하여 업무(Operation), 제품(Product), 고객(Customer) 단위로 문제를 발굴하고, 이를 관리하는 두 가지의 영역인 규제와 감사(Audit & Regulation)영역과 지원 인프라(IT & Human Resource) 영역에 대한 기회를 추가로 도축하는 작업을 수행한다.
1) 업무(Operation)
제품 및 서비스를 생산하기 위해서 운영하는 내부 프로세스 및 주용 자원(Resource)관련 주제 도출
예) 생산 공정 최적화, 재고량 최소화 등
2) 제품(Product)
생산 및 제공하는 페품.서비스를 개선하기 위한 관련 주제 도출
예) 제품의 주요 기능 개선, 서비스 모니터링 지표 도출 등
3) 고객(Customer)
제품.서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출
예) 고객 Call 대기 시간 최소화, 영업점 위치 최적화 등
4) 규제와 감사(Regulation & Audit)
제품.서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출
예) 제공 서비스 품질의 이상 징후 관리, 새로운환경 규제 시 예상되는 제품 추출 등
5) 지원 인프라(IT & Human Resource)
분석을 수행하는 시스템 영역 및 이를 운영.관리하는 인력의 관점에서 주제 도출
예) EDW 최적화, 적정 운영 인력 도출 등
현재의 사업 방식 및 비즈니스에 대한 문제 해결은 최적화 및 단기 과제 형식으로 도출될 가능성이 높기 때문에 새로운 문제의 발굴 및 장기적인 접근을 위해서는 기업이 현재 수행하고 있는 비즈니스뿐만 아니라 환경과 경쟁 구조의 변화 및 역량의 재해석을 통한 "혁신(Innovation)"의 관점에서 분석 기회를 추가 도출하는 것이 요구된다. 즉, 현재 사업을 영위하고 있는 환경, 경쟁자, 보유하고 있는 역량, 제공하고 있는 시장 등을 넘어서 거시적 관점의 요인, 경쟁자의 동향, 시장의 니즈 변화, 역량의 재해석 등 새로운 관점의 접근을 통해 새로운 유형의 분석 기회 및 주제 발굴을 수행해야 한다. 이러한 작업을 수행할 때는 분석가뿐만 아니라 해당 기능을 수행하는 직원 및 관련자에 대한 폭넓은 인터뷰와 워크숍 형태의 아이디어 발굴(Ideation)작업이 필요하다.
1) 거시적 관점의 메가 트렌드에서는 현재의 조직 및 해당 산업에 폭넓게 영향을 미치는 사회.경제적 용인을 STEEP로 요약되는 Social(사회), Technological(기술), Economic(경제), Environmental(환경), Political(정치) 영역으로나누어서 좀 더 폭넓게 기회 탐색을 수행한다.
- 사회(Social) 영역
비즈니스 모델의 고객(Customer)영역에 존재하는 현재 고객을 확장하여 전체 시장을 대상으로 사회적 문화적, 구조적 트렌드 변화에 기반한 분석 기회 도출
예) 노령화, 밀레니얼 세대의 등장, 저출산에 따른 해당 사업 모델의 변화 등
- 기술(Technological) 영역
과학, 기술, 의학 등 최신기술의 등장 및 변화에 따른 역량 내재화와 제품.서비스 개발에 대한 분석 기회 도출
예) 나노 기술, IT 융합 기술, 로봇 기술의 고도화에 따른 기존 제품의 Smart화 등
- 경제(Economic) 영역
산업과 금융 전반의 변동성 및 경제 구조 변화 동향에 따른 시장의 흐름을 파악하고 이에 대한 분석 기회 도출
예) 원자재 가격, 환율, 금리 변동에 따른 구매 전략의 변화 등
- 환경(Environmental) 영역
환경과 관련된 정부, 사회단체, 시민사회의 관심과 규체 동향을 파악하고 이에 대한 분석 기회 도출
예) 탄소 배출 규제 및 거래 시장 등장에 따른 원가 절감 및 정보 가시화 등
- 정치(Political) 영역
주요 정책방향, 정세, 지정학적 동향 등의 거시적인 흐름을 토대로 한 분석 기회 도출
예) 대북 관계 동향에 따른 원자재 구매 거래선의 다변화 등
2)경쟁자 확대 관점에서는 현재 수행하고 있는 사업 영역의 직접 경쟁사 및 제품.서비스뿐만 아니라 대체재와 신규 진입자 등으로 관점을 확대하여 위협이 될 수 있는 상황에 대한 분석 기회 발굴의 폭을 넓혀서 탐색한다.
- 대체제(Substitute) 영역
융합적인 경쟁 환경에서 현재 생산을 수행하고있는 제품.서비스의 대체재를 파악하고 이를 고려한 분석 기회 도출
예) 현재 오프라인으로 제공하고 있는 자사의 상품.서비스를 온라인으로 제공하는 것에 대한 탐색 및 잠재적 위협 파악
- 경쟁자(Competitor) 영역
현재 생산하고 있는 제품.서비스의 주요 경쟁자에 대한 동향을 파악하여 이를 고려한 분석 기회 도출
예) 식별된 주요 경쟁사의 제품.서비스 카탈로그 및 전략을 분석하고 이에 대한 잠재적 위협 파악
- 신규 진입자(New Entrant) 영역
현재 직접적인 제품.서비스의 경쟁자는 아니지만, 향후 시장에 대해서 파괴적인 역할을 수행할 수 있는 신규 진입자에 대한 동향을 파악하여 이를 고려한 분석 기회 도출
예) 새로운 제품에 대한 크라우드 소싱(Crowd Sourcing) 서비스인 Kickstarter의 유사 제품을 분석하고 자사의 제품에 대한 잠재적 위협 파악
3) 시장의 니즈 탐색 관점에서는 현재 수행하고 있는 사업에서의 직접 고객 뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널(Channel) 및 고객의 구매와 의사결정에 영향을 미치는 영향자들(Influencer)에 대한 폭넓은 관점을 바탕으로 분석 기회를 탐색한다.
- 고객(Customer) 영역
고객의 구매 동향 및 고객의 컨텍스트를 더욱 깊게 이해하여 제품.서비스의 개선 필요에 필요한 분석 기회 도출.
예) 철강 기업의 경우 조선 산업과 자동차 산업의 동향 및 주요 거래선의 경영 현황 등을 파악하고 분석 기회 도출 등
- 채널(Channel) 영역
영업 사원, 직판 대리점, 홈페이지 등의 자체적으로 운영하는 채널뿐만 아니라 최종 고객에게 상품.서비스를 전달하는 것에 경로로 존재하는 가능한 경로를 파악하여 해당 경로에 존재하는 채널별로 분석 기회를 확대하여 탐색
예) 은행의 경우 인터넷전문은행 등 온라인 채널의 등장에 따른 변화에 대한 전략 분석 기회 도출 등
- 영향자들(Influencer) 영역
기업 의사결정에 영향을 미치는 주주.투자자.협회 및 기타 이해관계가즤 주요 관심사항에 대해서 파악하고 분석기회 탐색
예)M&A 시장 확대에 따른 유사 업종의 신규 기업 인수 기회 탐색 등
4) 역량의 재해석 관점에서는 현재 해당 조직 및 기업이 보유한 역량뿐만 아니라 해당 조직의 비즈니스에 영향을 끼치는 파트너 너트워크를 포함한 활용 가능한 역량을 토대로 폴넓은 분석 기회를 탐색한다.
- 내부 역량(Competency) 영역
지적 재산권, 기술력 등 기본적인 것 뿐만 아니라 중요하면서도 자칫 간과하기 쉬운 지식, 기술, 스킬등의 노하우와 인프라적인 유형 자산에 대해서 폭넓게 재해석하고 해당 영역에서 분석 기회를 탐색한다.
예) 자사 소유 부동산을 활용한 부가 가치 창출 기회 발굴 등
- 파트너와 네트워크(Partners & Network) 영역
자사가 직접 보유하고 있지는 않지만 밀접한 관계를 유지하고 이쓴 관계사와공급사 등의 역량을 활용해 수행할 수 있는 기능을 파악해보고 이에 대한 분석 기회를 추가적으로도출
예) 수출입.통관 노하우를 활용한 추가 사업기회 탐색 등
2) 외부 참조 모델 기반 문제 탐색
잘 알려진 분제를 푸는 것뿐만 아니라 새로운 문제를 발굴하기 위해서는(문제와 과제를 도출해 내는 기준 모델로서) 유사.동종의 환경에서 기존에 수행한 분석 과제를 살펴보는 것도 주요한 시사점을 도출해 준다.
유사.동종 사례 벤치마킹을 통한 분석기회 발굴은 제공되는 산업별, 업무 서비스별 분석테마 후보 그룹(Pool)을 통해 "Quick & Easy"방식으로 필요한 분석 기회가 무엇인지에 대한 아이디어를 얻고 기업에 적용할 분석테마 후보 목록을 위크숍 형태의 브레인스토밍(Brain Storming)을 통해 빠르게 도출하는 방법이다.
특히 현재 환경에서는 데이터를 활용하지 않은 업종 및 서비스가 사실상 존재하지 않기 때문에 데이터를 분석을 통한 인사이트(Insight)를 도출하고 업무에 활용하는 사례들을 발굴하여 자사의 업종 및 업무 서비스 에 적용할 수 있다. 따라서 산업 및 업종을 불문하고 데이터 분석 사례를 기반으로 분석테마 후보 그룹을 미리 정의하고 그 후보 그룹을 통해 해당 기업에 벤치마킹할 대상인 분석기회를 고려한다면 빠르고 쉽게 분석기회를 도출할 수 있다.
평상시 지속적인 조사와 데이터 분석을 통한 가치 발굴 사례를 정리하여 풀(Pool)로 만들어 둔다면 과제 발굴 및 탐색 시 빠르고 의미 있는 분석 기회 도출이 가능하다. 또한 유사.동종 업계뿐만 아니라 타 업종 및 분양의 데이터 부석 활용 사례 또한 정리해 놓을 경우 새로운 주제 탐색에 도움이 된다.
3) 분석 유즈 게이스(Analytics Use Case) 정의
현재의 비즈니스 모델 및 유사.동종사례 탐색을 통해서 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기에 앞서 분석 유즈 게이스로 표기하는 것이 필요하다. 분석 유즈케이스는 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 한다.
분석 유즈 케이스 예시
업무 분석 유즈 게이스 설명 효과
재무 자금 시재 예측 일별로 예정된 자금 지출과 입금을 추정 자금 과부족 현상 예방,
자금 운용 효율화
구매 최적화 구매 유형과 구매자별로 과거 실적과 구매 구매 비용 절감
조건을 비교.분석하여 구매 방안 도출
고객 서비스 수준 유지 서비스별로 달성 수준을 측정하고 평가한 품질수준 제고,
뒤 목표 수준을 벗아났으면 경보 발행 고객만족 제고
고개간족 달성 고객 세그먼트별로 만족 수준을 측정하고 고객만족 제고,
이상이 있으면 원인을 분석하여 대책 강구 고객유지 향상
파이프라인 최적화 파이프라인 단계별로 고객 상태를 파악하고 목표 매추 달성,
수조 규모를 예상하여 필요한 고객 기회를 고객반응률 향상
추정하여 영업 촉진
판매 영업성과 분석 영업 직원별 사용 원가(급여 포함)와 실적을 영업 수율 향상,
분석하고 부진한 영업 직원 세그먼트를 식별 영업 직원 생산성 제고
하여 영업 정책에 반영
나. 문제 정의(Problem Definition)단계
식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계이다. 앞서 수행한 문제 탐색의 단계가 무엇을(What) 어떤 목적으로(Why)수행해야 하는지에 대한 과점이었다면, 본 단계에서는 이를 달성하기 위해서 필요한 데이터 및 기법(How)을 정의하기 위한 데이터 분석의 문제로의 변환을 수행하게 된다. 예를 들어, '고객 이탈의 증대'라는 비즈니스 문제는 '고객의 이탈에 영향을 미치는 요인을 식별하고 이탈 가능성을 예측'하는 데이터 분석 문제로 변환될 수 있다.
데이터 분석 문제의 정의 및 요구사항은 분석을 수행하는 당사자뿐만 아니라 해당 문제가 혜결되었을 때 효요을 얻을 수 있는 최종사용자(End User)과전ㅁ에서 이루어져야 한다. 데이터 분석 문제가 잘 정의되었을때 필요한 데이터의 정의 및 기법 발굴이 용이하기 때문에 가능한 정확하게 분석의 관점으로 문제를 재정의할 필요가 있다.
다. 해결방안 탐색(Solution Search)단계
이 단계에서는 정의된 데이터 분석 문제를 해결하기 위한 다양한 방안이 모색된다. 동일한 데이터 분석문제라 해도 어떤 데이터 또는 분석 시스템을 사용할 것인지에 따라서 소용되는 예산 및 활용 가능한 도구(Tool)가 다르기 때문에 다각도로 고려할 필요가 있다. 즉, 기존 정보시스템의 단순한 보완으로 분석이 가능한지, 엑셀 등의 간단한 도구로 분석이 가능한지, 또는 하둡 등 분산 병렬처리를 활용한 빅데이터 분석 도구를 통해 보다 체계적이고 심도 있는 방안이 고려되는지 등등 여러 대안이 도출될 수 있다. 또한 분석 역량을 기존에 가지고 있는 지의 여부를 파악하여 보유하고 있지 않은 경우에는 교육이나 전문 인력 채용을 통한 역량을 확보하거나 분석 전문 업체를 활용하여 과제를 해결하는 방안에 대해 사전 검토를 수행한다.
라. 타당성 검토(Feasibility Study)단계
도출된 분석 문제나 가설에 대한 대안을 과제화하기 위해서는 다음과 같은 다각적인 타당성 분석이 수행되어야 한다.
1) 경제적 타당성
비용 대비 편익 분석 관점의 접근이 필요하다. 비용 항목은 데이터, 시스템, 인력, 유지보수 등과 같은 분석 비용으로 구성된다. 편익으로는 분석 결과를 적용함으로서 실질적 비용 절감, 추가적 매출과 수익 등과 같은 경제적 가치로 산출된다.
2) 데이터 및 기술적 타당성
데이터 분석에는 데이터 존재 여부, 분석 시스템 환경, 그리고 분석 역량이 필요하다. 특히, 분석 역량의 경우 그림 처럼 실제 프로젝트 수행 시 걸림돌이 되는 경우가 많기 때문에 기술적 타당성 분석시 역량 확보 방안을 사전에 수립해야 한다. 이를 효과적으로 평가하기 위해서는 비즈니스 지식과 기술적지식이 요구되기 때문에 비즈니스 분석가, 데이터 분석가, 시스템 엔지니어 등과의 협업이 수반되어야 한다.
______________________________________________________________________________________________________
도출된 여러 대안 중에서 평가 과정을 거쳐 가장 우월한 대안을 선택한다. 도출한 데이터 분석 문제 및 선정된 솔루션 방안을 포함하여 이를 분석 과제 정의서의 형태로 명시하는 후속작업을 시행하며 이는 프로젝트 계획의 입력물로 활용횐다.
2. 상향식 접근법(Bottom Up Approach)
한 의약제조사는 특허기간이 만료된 의약품 약 2천 종류의 데이터를 분석, 상호 결합하여 새로운 의약품을 개발하려고 시도하였다. 의약품 집합으로부터 두 개의 조합을 선택할 수 있는 방법은 백만 개 이상이기 때문에 이 회사는 새로운 결합의 효과성을 검정하기 위하여 다양한 기법을 적용하여 데이터를 분석하였다. 이런한 분석 사례는 절차가 규정된 하향식 문제해결 방식이 아니라 경험적인 과거 데이터를 무작정 결합하여 상향식으로 정보 혹은 지식을 얻고자 하는 새로운 분석 패러다임이라 할 수 있다.
여기에서는 전통적인 하향식 문제 해결 방식과 대비하여 기업에서 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 상향식 접근방법을 기술한다. 사향식 접근방법은 그림처럼 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 잇는 문제를 도출하는 일련의 과정이다.
- 기존 하향식 접근법의 한계를 극복하기위한 분석 방법론
지금까지 가장 일반적으로 사용되고 있는 문제 해결 방식은 앞서 설명한 것과 같은 하향식의 놀리적인 단계별 접근법이다. 기존 접근 방법인 논리적인 단계별 접근법은 문제의 구조가 분영하고 문제를 해결하고 해결책을 도출하기위한 데이터가 분석가 및 의사결정자에게 주어져 있음을 가정하고 있기 때문에 솔루션 도출에는 유효하지만 새로운 문제의 탐색에는 한계가 있다. 따라서 기존의 논리적인 단계별 접근법에 기반한 문제해결 방식은 최근 복잡하고 다양한 환경에서 발생하는 문제에는 적합하지 않을 수 있다.
이를 해결하기 위새서 스탠포드 대학의 d.shool(Institute of Design at Stanford)은 디자인 사고(Design Thinking)접근법을 통해서 전동적인 분석적 사고를 극복하려고 한다. "이미 우리가 알고 있는 것" 즉 분석가의 문제에 대한 분석 접근법의 한계를 극복하기 위해서 현장 관찰과 감정이입, 즉 대상의 관점으로의 전환을 수행한다. 통상적인 관점에서는 분석적으로 사물을 인식하려는 'Why'를 갖오하지만, 이는 우리가 알고 있다고가정하는 것이기 때문에 문제와 맞지 않는 솔류션인 경우 오류가 발생할 소지가 있다. 그렇기 때문에, 답을 미리 내는 것이 아니라 사물을 있는 그대로 인식하는 'What' 관점에서 보아야 한다는 것이다. 객과적으로 존재하는 데이터 그 자체를 관찰하고 실제적으로 행동에 옮김으로써 대상을 좀 잘 이해하는 장식으로의 접근을 수행하는 것이다. 이와 같은 점을 고려하여 d.school 에서는 첫 단계로 감정이임(Empathize)을 강조하고 있다.
_______________________________________________________________________________________________
일반적으로 상향식 접근 방식의 데이터 분석은 비지도학습(Unsupervised Learning)방법에 의해 수행된다. 비지도학습은 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것이다. 데이터 마이닝 기법을 예로들면, 장바구니 분석, 근집 분석, 기술 통계 및 프로파일링 등이 이에 속한다.
이와 반대로 명확한 목적하에 데이터분석을 실시하는 것은 지도학습(Supervised Learning)이라고하며 분류, 추측, 예측, 최적화를 통해 사용자의 주도 하에 분석을 실시하고 지식을 도축하는 것이 목적이다. 예를 들어서 그림에서 O와 X를 구분 짓게 하는 분류(Classification)는 지도학습에 해당되고, 인자들 간의 유사성을 바탕으로 수행하는 군집화(Clustering)는 비지도학습에 해당한다. 지도학습의 경우 결과로 도출되는 값에 대새서 사전에 인지하고 어떠한 데이터를 넣었을 때 어떠한 결과가 나올지를 예츨하는것이라면 비지도학습의 경우 목표값을 사전에 정의하지 않고 데이터 자체만을 가지고 그룹들을 도출함으로써 해석이 용이하지는 않지만 새로운 유형의 인사이트를 도출하기에 유용한 방식으로 활용할 수 있다.
__________________________________________________________________________________________________
통계적 분석에서는 인과관계 분석을 위해 가설 을 설정하고 이를 검정하기 위해 모집단으로부터 표본을 추출하고 그 표본을 이용한 가설검정을 실시하는 방식으로 문제를 해결하였다. 그러나 빅데이터 환경에서는 이와 같은 노리적인 인과관계 분석뿐만 아니라 상관과계 분석 또는 연관 분석을 통하여 다양한 문제 해결에 도움을 받을 수 있다. 즉, 인과관계(Know-why)로 부터 상관관계(Know-affinity)분석으로의 이동이 빅데이터 분석에서의 주요 변화라고 할 수 있다. 다양의 데이터 분석을 통해서 "왜" 그러한 일이 발생하는지 역으로 추적하면서 문제를 도출하거나 재정의 할 수 있는 것이 상향식 접근 방법이다.
- 시행착오를 통한 문제 해결
프로토타이핑(Prototyping)접근법은 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해 보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법을 말한다. 하향식 접근방식은 문제가 정형화되어 있고 문제해결을 위한 데이터가 완벽하게 조직에 존재할 경우에 효과적이다. 이에 반하여, 프로토타이핑 방법론은 비록 완전하지는 못하다 해도 신속하게 해결책이나 모형을 제시함으로써 이를 바탕으로 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있게 하는 유용한 상향식 접근 방식이다.
프로토타이핑 접근법의 기본적인 프로세스는 가설의 생성(Hypotheses), 디자인에 대한 실험(Design Experiments), 실제 환경에서의 테스트(Test), 테스트 결과에서의 통찰(Insight) 도출 및 가설 확인으로 구성된다. 학습이라는 목표를 가지고 잘 설계된 프로토타이핑을 지속하는 경우에, 실험이 가지고 있는 불명확성(Uncertainty)은 감소하고 의도했던 결과를 도출할 수 있는 성공 가능성은 높아진다. 한 번의 분석을 통해서 의도했던 겨로가가 나오기 쉽지 않은 동적인 환경에서 최대한 빨리 결과를 보여주고 해당 내용을 토대로 지속적인 반복을 수행하는 프로토타이핑 방식이 빅데이터 분석 환경에서는 보다 유용하다고 알려져 있다.
빅데이터 분석 환경에서 프로토타이핑의 필요성을 상세히 정리하면 다음과 같다.
- 문제에 대한 인식 수준: 문제 정의가 불명확하거나 이전에 접해보지 못한 새로운 문제일 경우 사용자 및 이해 관계자는 프로토타입을 이용하여 문제를 이해하고 이를 바탕으로 구체화하는데 도움을 받을 수 있다.
- 필요 데이터 준재 여부의 불확실성: 문제 해결을 위해 필요한 데이터의 집합이 모두 존재하지 않을 경우, 그 데이터의 수집을 어떻게 할 것인지 또는 그 데이터를 다른 데이터로 대체할 것인지 등에 대한 데이터 사용자와 분석가 간의 반복적이고 순환적인 협의 과정이 필요하다. 대체 불가능한 데이터가 존재하는지 사전에 확인한다면 불가능한 프로젝트를 수행하는 리스크를 사전에 방지할 수 있다.
- 데이터의 사용목적의 가변성: 데이터의 가치는 사전에 정해진 수집목적에 따라 확정되는 것이 아니고 그 가치가 지속적으로 변화할 수 있다. 따라서 조직에서 보유중인 데이터라 하더라도 기존의 데이터정의를 재검토하여 데이터의 사용목적과 범위를 확대할 수 있을 것이다. 예를 들면, 이동통신사에서 수집하는 사용자의 위치추적은 사용자의 호울을 효율적으로 처리하기 위한 원래의 목적으로부터, 사용자들의 즉정 시간에 많이 모이는 장소가 어디 인가를 분석하는 정보로 활용이 가능하다.
3. 분석과제 정의
다양한 방식을 통해서 도출한 분석과제를 분석과제 정의서 양식을 활용하여 보다 상세하게 정의한다.
분석과제 정의서는 향후 프로젝트 수행계획의입력물로 사용되기 때문에 프로젝트 수행하는 이해관계자가 프로젝트의 방향을 설정하고 성공여부를 판별할 수 있는 주요한 자료로서 명확하게 작성되어야 한다.
분석과제 정의서를 통해 분석별로 필요한 소스 데이터, 분석방법, 데이터 입수 및 분석의 난이도, 분석수행주기, 분석결과에 대한 검증 오너십, 상세 분석 과정 등을 정의한다. 분석 데이터 소스는 내.외부의 비구조적인 데이터와 소셜 미디어및 오픈 데이터까지 범위를 확장하여 고려하고 분석 방법 또한 상세하게 작성한다.
2018년 1월 1일 월요일
제2절 분석 방법론
1. 분석 방법론 개요
최근 기업 경쟁력을 향상하기 위하여 데이터 분석 및 활용의 중요성이 강조되고 있다. 지금까지 기업들은 일반 수준의 품질목표나 재무성과를 달성하기 위하여 데이터 기반의 의사결정보다는 경험과 감에 의한 판단만으로도 어느 정도 목표를 달성할 수 있었다. 그러나 극한의 글로벌 경쟁 환경에서는 더 이상 경험과 감에의한 의사결정으로는 한계가 있음을 인식하고 데이터 기반의 의사결정을 위하여 많은 노력을 기울이고 있다.
고정 관념(Stereotype), 편향된 생각(Bias) 프레이밍 효과(Framing Effect:문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판안이나 선택이 달라질 수 있는 현상) 등은 기업의 합리적 의사결정을 가막는 장애 요소이다. 데이터 기반의 의사결정을 위해서는 기업 문화의 변화와 업무 프로세스의 개선이 필요하고 이를 촉진시키는 도로고써 데이터 분석을 활용할 수 있다.
데이터 분석을 효과적으로 기업내 정착하기 위해서는 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필요적이다. 프로젝트는 한 개인의 역량이나 또는 조직의 우연한 성공에 기인해서는 안되고 일정한 수준의 품질을 갖춘 산출물과 프로제그의 성공 가능성을 확보하고 제시할 수 있어야 한다. 따라서 방법론은 상세한 절차(Procedures), 방법(Methods), 도구와 기법(Tools & Techniques), 템플릿과 산춘물(Templates & Outputs)로 구성되어 어느 정도의 지식만 있으면 활용이 가능해야 한다.
일반적으로 방법론의 생성 과정은 그림과 같이 개인의 암묵지가 조직의 형식지로 발전하는 형식화 과정을 거치고, 이를 체계화하여 문서화한 최적화된 형식지로 전개됨으로 방법론이 만들어질 수 있다. 이렇게 만들어진 방법론은 다시 개인에게 전파되고 활용되는 내재화 과정을 거쳐 암묵지로발전하는 선순환 화정이 진행되면서 조직 내 방법론이 완성될 수 있다.
방법론은 적용 업무의 특성에 따라 다양한 모델을 가질 수 있다. 폭포수 모델(Waterfall Model)은 단계를 순차적으로 진행하는 방법으로 이전 단계가 완료되어야 다음 단계로 진행될 수 있으며 하향식(Top Down)으로 진행되지만 문제나 개선사항이 발견되면 전 단계로 돌아가는 피드백(Feedback)과정이 수행되기도 한다.
나선형 모델(Spiral Model)은 반복을 통하여 점증적으로 개발하는 방법으로써 처음시도하는 프로젝트에 적용이 용의하지만, 반복에 대한 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다. 이 이외에도프로토타입 모델(Prototype Model) 등 다양한 모델이 있다. 빅데이터 분석에서도 분석 과제의 특징과 조직의 역량에 따라 다양한 모델을 기반으로 방법론을 구축할 수 있다.
일반적으로 방법론은 계층적 프로세스 모델(Stepwised Process Model)의 형태로 구성된다. 최상위 계층은 단계(Phase)로서 프로세스 그룹(Process Group)을 통하여 완성된 단계별 산출물이 생성되어야 한다.
각 단계는 기준선(Baseline)으로 설정되어 관리되어야 하며 버전관리(Configuration Management)등을 통하여 통제가 이루어져야 한다. 각 단계는 여러개의 태스크(Task)로 구성되는데 각 태스크는 단계를 구성하는 단위 활동으로써 물리적 또는 논리적 단위로 품질검토의 항목이 될 수 있다. 마지막 계층은 스텝(Step)으로서 WBS(Work Breakdown Structure)의 위크패키지(Work Package)에 해당되고 입력자료(Input), 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)이다.
2. KDD 분석 방법론
KDD(Knowledge Discovery in Databases)는 1996년 Fayyad가 체계적으로 정리한 데이터 마이닝 프로세스로써 데이터베이스에서의미 있는 지식을 탐색하는 데이터 마이닝부터, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖고 있다. KDD는 데이터에서 패턴을 찾는 과정을 다음과 같이 9개 프로세스로 제시하고 있다.
- 분석 대상 비즈니스 도메인의 이해
- 분석 대상 데이터셋 선택과 생성
- 데이터에 포함되어 있는 노이즈(Noise)와 이상값(Outlier)등을 제거하는 정제작업이나 선처리
- 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경
- 분석 목적에 맞는 데이터 마이닝 기법 선택
- 데이터 마이닝 시행
- 데이터 마이닝 결과에 대한 해석
- 데이터 마이닝에서 발견된 지식 활용
가. 데이터셋 선택(Selection)
데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트의 목표를 정확하게 설정한다.
데이터셋 선택은 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하고 필요한 경우 추가적으로 데이터셋을 생성할 수 있다. 데이터셋 선택 프로세스를 통하여 데이터 마이닝에 필요한 목표 데이터(Target Data)를 구성하고 다음 단계인 데이터 전처리 프로세스를 통하여 데이터셋 추가가 요구되는 경우 이 선택 프로세스를 반복할 수 있다.
나. 데이터 전처리(Preprocessing)
데이터셋 선택 프로세스에서 추출된 분석 대상용 데이터셋에 포함되어 있는 잡음(Noise)과 이상값(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거하거나 의미 있는 데이터로 처리하는 데이터셋 정제작업을 시행한다. 데이터 전처리 프로세스를 수행하는 과정에서 추가적인 데이터셋이 필요한 경우 데이터셋 선택 프로세스를 반복할 수 있다.
다. 데이터 변환(Transformation)
데이터 전처리 프로세스를 통하여 분석용 데이터셋이 편성되면 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터 마이닝을 효율적으로 적용될 수 있도록 데이터셋을 변경하는 프로세스를 수행한다.
라. 데이터 마이닝(Data Minig)
데이터 변환 프로세스를 통하여 만들어진 분석용 데이터셋을 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 데이터 마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터를 분류 또는 예측 등 아이닝 작업을 시행한다. 데이터 마이닝 프로세스를 수행하는 과정에서 필요에 따라 데이터 전처리, 데이터 변환 프로세스를 병행할 수 있다.
마. 데이터 마이닝 결과 평가(Interpretation/Evaluation)
데이터 마인ㅇ 결과에 대한 해석과 평가 그리고 분석 목적과의 일치성을 확인한다. 데이터 마이닝을 통하여 발견된 지식을 업무에 활용하기 위한 방안을 찾고필요에 따라 데이터셋 선택 프로세스부터 데이터 마이닝 프로세스를 반복하여 수행한다.
3. CRISP-DM 분석 방법론
CRISO-DM(Cross Industry Standard Process fo Data Mining)은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었고 DaimlerChryrler, SPASS, NCR 등이 참여하여 1999년 첫 버전을 발표하였다.
CRISP-DM은 계층적 프로세스 모델(Hierarchical Process Model)로써 4개 레벨로 구성되어 있다.
최상위 레벨은 여러 갱의 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Generic Tasks)를 포함한다.
일반화 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이다. 세 번째 레벨은 세분화 태스크(Specilized Tasks)로 일반화 태스크를 구체적으로 수행하는 레벨이다. 예를 들어 데이터 정제(Data Cleaning)의 일반화 태스크는 범주형 데이터 정제, 연속형 데이터 정제 등으로 구체화된 세분화 태스크가 있다. 마지막 레빌인 프로세스 실행(Process Instances)은 데이터 마이닝을 위한 구체적인 실행을 포함한다.
CRISP-DM 프로세스는 6단계로 구성되어 있으며, 각 단계는 폭포수 모델(Waterfall Model)처럼 일방향으로 구성되어 있지 않고 단계 간 피드백(Feedback)을 통하여 단계별 완성도를 높이게 되어 있다.
가. 업무 이해(Business Understanding)
비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계로써 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립하는 단계이다.
- 업무 목적 파악
- 상황 파악
- 데이터 마이닝 목표 설정
- 프로젝트 계획 수립
나. 데이터 이해(Data Understanding)
데이터 이해는 분석을 위한 데이터를 수집하고데이터 속성을 이해하기 위한 과정으로 구성되고 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계이다.
- 초기 데이터 수집
- 데이터 기술 분석
- 데이터 탐색
- 데이터 품질 확인
다. 데이터 준비(Data Preparation)
데이터 준비는 분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터셋을 편성하는 단계로써 많은 시간이 소요될 수 있다.
- 분석용 데이터셋 선택
- 데이터 정제
- 분석용 데이터셋 편성
- 데이터 통합
- 데이터 포맷팅
라. 모델링(Modeling)
다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계이다. 모델링 과정에서 데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있다. 모델링 단계를 통하여 찾아낸 모델은 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합(Overfitting) 등의 문제를 발견하고 대응 방안을 마련한다.
- 모델링 기법 선택
- 모델 테스트 계획 설계
- 모델 작성
- 모델 평가
마. 평가(Evaluation)
모델링 단계에서 얻은 모델이 프로젝트의 목적에 부합하는지를 평가한다. 이 단계의 목적은 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단하는 과정이다.
- 분석결과 평가
- 모델링 과정 평가
- 모델 적용성 평가
바. 전개(Deployment)
모델링과 평가 단계를 통하여 완성된 모델은 실 업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유지보수 계획을 마련한다. 모델은 적용되는 비즈니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영 모델의 평가 기분 등에 따라 생명주기(Life Cycle)가 다양하므로 상세한 전재 계획이 필요하다. 또한 CRSIP-DM의 마지막 단계이므로 프로젝트 종료 관련 프로세스를 수행하여 프로젝트를 완료시킨다.
- 전개 계획 수립
- 모니터링과 유지보수 계획 수립
- 프로젝트 종료보고서 작성
- 프로젝트 리뷰
4. 빅데이터 분석 방법론
빅데이터를 분석하기 위한 방법론은 계층적 프로세스 모델(Stepwised Process Model)로써 3계층으로 구성된다. 최상위 계층은 단계(Phase)로서 프로세스 그룹(Process Group)을 통하여 완성된 단계별 산출물이 생성되어야 한다. 각 단계는 기준선(Baseline)으로 설정되어 관리되어야 하며 버전과리(Configuration Management)등을 통하여 통제가 이루어져야 한다. 각 단계는 여러 개의 태스크(Task)로 구성되는데 각 태스크는 단계를 구성하는 단위 활동으로써 물리적 또는 논리적 단위로 품질검토의 항목이 될 수 있다.
마지막 계층은 스텝(Step)으로서 WBS(Work Breakdown Structure)의 워크패키지(Work Package)에 해당되고 입력자료(Input), 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)이다.
빅데이터 분석 방법론은 비즈니스 도메인과 문제점을 인식하고 분석계획 및 프로젝트 수행계획을 수립하는 분석 기획(Planning)단계와 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 데이터 준비(Preparing)단계로 구성된다. 데이터 분석을 위한 원천 데이터가 확보되면 분석용 데이터셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용한 데이터 분석(Analyzing)단계를 수행한다.
분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비단계로 피드백(Feedback)하여 두 단계를 반복하여 진행한다. 데이터 분석 단계를 진행하ㅕㄴ서 분석 기획에 맞는 모델을 도출하고이를 운영중인 가동 시스템에 적용하거나 시스템 개발을 위한 사전 검증으로 프로토타입 시스템을 구현하고자 하는 경우 시스템 구현(Developing)단계를 수행한다. 데이터 분석 및 시스템 구현 단계를 수행한 후 프로젝트의 성과를 평가하고 정리(Lesson Learned)하거나 모델의 발전 계획을 수립하여 차기 분석 기획으로 전달하는 평가 및 전개(Deploying)단계를 수행하여 빅데이터 분석 프로젝트를 종료한다.
가. 분석 기획(Planning)
분석 기획 단계는 분석하려는 비즈니스를 이해하고 도메인의 문제점을 파악하여 빅데이터 분석 프로젝트의 범위를 확정하는 단계이다. 또한 프로젝트의 정의 및 수행계획을 구체적이고 상세하게 수립하여 향후 프로젝트 진행의 기준선이 되도록 준비한다.
빅데이터 분석 프로젝트는 단순한 데이터 분석이나 아이닝이 아닌 대용량의 정형.비정형 데이터를 활요해야 하고 분석 및 운영을 위한 인프라 구축을 병행하거나 또는 기존 시스템(Legacy System)과의 많은 인터페이스를 동반하는 등 프로젝트내에 위험(Risk)요소가 많이 있으므로 분석 기획 단계에서 프로젝트의 위험을 사전에 식별하고 대응방안을 수립하는 프로세스도 진행한다.
- 비즈니스 이해 및 범위 설정
- 프로젝트 정의 및 계획 수립
- 프로젝트 위험 계획 수립
나. 데이터 준비(Preparing)
분석 기획에 근거하여 비즈니스 요구사항을 데이터 차원에서 다시 파악하고 프로젝트별로 필요로 하는 데이터를 정의하여 전사 차원의 데이터 스토어(Data Store)를 준비한다.
데이터 수집 저장은 조직 내.외부에서 정형.비정형 데이터를 수집해야 하는 복잡하고 많은 시간이 소요되므로 작업의 효율성을 위하여 필요시 ETL(Extract Transform Load)등의 다양한 도구를 사용한다. 또한 분석에 활용되기 위해서는 데이터의 품질확보가 중요하므로 품질통제와 품질보증 프로세스도 수행한다.
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 점검
다. 데이터 분석(Analyzing)
데이터 준비 단계에서 확보된 정형.비정형 데이터를 이용하여 분석 기획 단계에서 수립된 프로젝트 목표를 달성하기 위하여 데이터 분석 프로세스를 진행한다. 데이터 스토어(Data Store)에서 분석에 필요한 데이터셋을 준비하고 탐색전 분석, 모델링과 모델 평가 태스크를 진행한다.
비정형 텍스트 데이터가 존재할 경우 텍스트 마이닝, 텍스트 분류 등의 분석 기법과 알고리즘을 이용하여 비정형 분석을 실시하고 필요시 정형 데이터와 결합하여 통합 모델링을 수행한다. 분석용 데이터셋을 추출하는 과정에서 분석에 필요한 충분한 데이터를 확보할 수 없을 경우 데이터 준비 단계를 반봅하여 수행한다.
- 분석용 데이터 준비
- 텍스트 분석
- 탐색전 분석
- 모델링
- 모델 평가 및 검증
- 모델적용 및 운영방안 수립
라. 시스템 구현(Developing)
분석 기획의 의도에 맞는 모델을 데이터 분석 단계를 진행하여 도출하고이를 운영중인 시스템에 적용하거나 프로토타입(Prototype)을 구현하고자 하는 경우 시스템 구현 단계를 진행한다. 단순한 데이터 분석이나 데이터 마이닝을 통한 분석 보고서를 작성하는 것으로 프로젝트가 종료되는 경유에는 시스템 구현 단계를 수행할 필요가 없고 다음 단계인 평가 및 전개 단계를 수행한다.
시스템 구현 단계는 소프트위어공학(Software Engineering), 정보공학(Information Engineering), CBD(Component Based Development)등 일반적으로 사용되는 소프트웨어 개발 생명주기인 SDLC(Software Development Life Cycle)와 기업내 시스템 개발을 위하여 사용하고 있는 방법론을 커스터마이징(Customizing)하여 적용할 수도 있다.
- 설계 및 구현
- 시스템 테스트 및 운영
마. 평가 및 전개(Deploying)
평가 및 전개 단계에서는 분석 기획 단계에서 수립된 프로젝트의 목적을 달성했는지의 여부를 평가하고 데이터 분석 단계와 시스템 구현 단계에서 구축된 모델의 발전계획을 수립하는 등 빅데이터 분석 프로젝트의 종료 및 전개 프로세스로 구성된다. 또한 수행된 프로젝트를 객관적이고 정량적으로 평가하여 내부 활용 및 자산화를 추진한다.
프로젝트 수행 중에 발생된 모든 중간 산출물을 정리하고 프로젝트 종료 보고서를 작성하여 의사소통 체계에 따라 보고하고 프로젝트를 종료한다.
- 모델 발전계획 수립
- 프로젝트 평가 및 보고
____________________________________________________________________________
5. 분석 계획(Planning)
가. 비즈니스 이해 및 범위 설정
빅데이터 분석 프로젝트를 진행하기 위해서는 비즈니스에 대한 충분한 이해와 도메인에 대한 문제점을 파악한다. 비즈니스 이해와 문제점을 파악을 위해서는 업무 매뉴얼 및 업무 전문가의 도움이 필요하다. 프로젝트의 범위를 명확하게 파악하기 위해서는 구조화된 명세서를 작성한다.
1) 비즈니스 이해
빅데이터 분석 대상인 업무 도메인을 이해하기 위해서는 내부 업무 매뉴얼과 관련자료, 외부의 관련 비즈니스 자료를 조사하고 향후 프로젝트 진행을 위한 방향을 설정한다.
- 입력자료: 업무 매뉴얼, 업무전문가의 지식, 빅데이터 분석 대상 도메인에 대한 관련 자료
- 프로세스 및 도구 : 자료 수집 및 비즈니스 이해
- 출력자료 : 비즈니스 이해 및 도메인 문제점
2) 프로젝트 범위 설정
빅데이터 분석 프로젝트의 대상인 비즈니스에 대한 이해와 프로젝트 목적에 부합되는 범위(Scope)을 명확하게 설정하고 프로젝트에 참여하는 모든 관계자들(Project stakehoders)의 이해를 일치시키기 위하여 구조화된 프로젝트 범위 정의서인 SOW(Statement Of Work)를 작성한다.
- 입력자료 : 중장기 계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점
- 프로세스 및 도구 : 자료 수집 및 비즈니스 이해, 프로젝트 범위 정의서 작성 절차
- 출력자료 : 프로젝트 범위 정의(SOW)
나. 프로젝트 정의 및 계획 수립
빅데이터 분석 프로젝트 추진 목표를 명확하게 정의하고구체화하기 위하여 모델의 운영 이미지를 설계하고 모델 평가 기준을 설정함으로써 프로젝트 정의를 명확하게 한다.
프로젝트 정의가 명확하게 설정되면 이를 기준으로 프로젝트의 WBS(Work Breakdown Structure)를 만들고 데이터 확보 계획, 빅데이터 분석 방법, 일정계획, 예산계획, 품질계획, 인력구성계획, 의사소통계획 등을 포함하는 프로젝트 수행 계획을 작성한다.
1) 데이터 분석 프로젝트 정의
프로젝트의 목표 및 KPI, 목표 수준 등을 구체화하여 상세 프로젝트 정의서를 작성하고 프로젝트의 목표를 명화화 하기 위하여 모델 운영 이미지 및 평가 기준을 설정한다.
- 입력자료: 프로젝트 범위 정의서, 빅데이터 분석 프로젝트 지시서
- 프로세스 및 도구 : 프로젝트 목표 구체화, 모델 운영 이미지 설계
- 출력자료 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
2) 프로젝트 수행 계획 수립
프로젝트 수행 계획서를 작성하는 단계로써 프로젝트의 목적 및 배경, 기대효과, 수행방법, 일정 및 추진조직, 프로젝트 관리방안을 작성한다. WBS는 프로젝트 산출물 위주로 작성되어 프로젝트의 범위를 명확하게 한다.
- 입력자료 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
- 프로세스 및 도구 : 프로젝트 수행 계획 작성, WBS 작성 도구, 일정계획 수립 도구
- 출력자료 : 프로젝트 수행 계획서, WBS
___________________________________________________________________________
다. 프로젝트 위험계획 수립
빅데이터 분석 프로젝트는 내.외부 시스템간 다양한 인터페이스, 대량의 정형.비정형 데이터 연계, 개인정보보호 등으로데이터 획득 및 활용에 현실적으로 많은 어려움이 있다. 따라서 계획수립 단계에서 빅데이터분석 프로젝트를 진행하면서 발생 가능한 모든 위험(Risk)를 발굴하여 사전에 대응 방안을 수립함으로써 프로젝트 진행의 완전성을 높인다.
1) 데이터 분석 위험 식별
선행하여 진행된 프로젝트 산출물과 정리자료(Lesson Learned)를 참조하고 전문가의 판단을 활요하여 빅데이터 분석 프로젝트를 진행하면서 발생 가능한 위험을 식별한다. 식별된 위험은 위험의 영향도와 빈도, 발생가능성 등을 평가하여 위험의 우선순위를 설정한다.
-입력자료 : 프로젝트 정의서, 프로젝트 수행 계획서, 선행 프로젝트 산출물 및 정리자료
- 프로세스 및 도구 : 위험 식별 절차, 위험영향도 및 발생가능성 분석, 위험 우선순위 판단
- 출력자료 : 식별된 위험 목록
2) 위험 대응 계획 수립
식별된 위험은 상세한 정량적.정성적 분석을 통하여 위험 대응방안을 수립한다. 예상되는 위험에 대한 대응은 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept)로 구분하여 위험 관리 계획서를 작성한다.
- 입력자료 : 식별된 위험 목록, 프로젝트 정의서, 프로젝트 수행 계획서
- 프로세스 및 도구 : 위험 정량적 분석, 위험 정성적 분석
- 출력자료 : 위험과리 계획서
6. 데이터 준비(Preparing)
가. 필요 데이터 정의
빅데이터 분석 프로젝트 진행에 필요한 데이터를 정의하는 단계로써 전사 차원에서 필요 데이터를 정의하는 것이 중요하며 정형.비정형.반정형 등의 모든 내.외부 데이터를 포함하고 데이터의 속성, 데이터 오너, 데이터 관련 시스템 담당자 등을 포함하는 데이터 정의서를 작성한다. 데이터 정의서를 이용하여 구체적인 데이터 획등방안을 상세하게 수립함으로써 데이터 획득 과정에서 발생하는 프로젝트 지연을 방지한다.
1) 데이터 정의
시스템, 데이터베이스, 파일, 문서 등의 다양한 내.외부 원천 데이터 소스(Raw Data Source)로 부터 분석에 필요한 데이터를 정의한다.
- 입력자료 : 프로젝트 수행 계획서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료
- 프로세스 및 도구 : 내.외부 데이터 정의, 정형.비정형.반정형 데이터 정의
- 출력자료 : 데이터 정의서
2) 데이터 획득방안 수립
내.외부의 다양한 데이터 소스로부터 정형.비정형.반정형 데이터를 수집하기 위한 구체적인 방안을 수립한다. 내부 데이터 획득에는 부서간 업무협조와 개인정보보호 및 정보보안과 관련한 문제점을 사전에 점검하고, 외부 데이터의획득은 시스템간 다양한 인터페이스 및 법적인 문제점을 고려하여 상세한 데이터 획득계획을 수립한다.
- 입력자료 : 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료, 데이터 구입
- 프로세스 및 도구 : 데이터 획득 방안 수립
- 출력자료 : 데이터 획득 계획서
나. 데이터 스토어 설계
빅데이터 분석 프로젝트의 목적을 파악하고필요한 데이터를 정의한 후 데이터 획득방안이 수립되면 데이터를 저장하기 위한 전사 차원의 데이터 스토어(Data Store)를 설계한다. 데이터 스토어는 정형.비정형.반정형 데이터를 모두 저장될 수 있도록 설계한다.
1) 정형 데이터 스토어 설계
정형 데이터는 구조화된 형식으로 데이터베이스나 파일 시스템 등 다양한 데이터 스토어 형태를 가질 수 있으나 일반적으로 관계형 데이터베이스인 RDBMS(Relational Data Base Management System)를 사용하고 데이터의 효율적인 저장과 활용을 위하여 데이터 스토어의 논리적, 물리적 설계를 구분하여 설계한다.
- 입력자료 : 데이터 정의서, 데이터 획득 계획서
- 프로세스 및 도구 : 데이터베이스 논리설계, 데이터베이스 물리설계, 데이터 매핑(Data Mapping)
- 출력자료 : 정형 데이터 스토어 설계서, 데이터 매핑 정의서
2) 비정형 데이터 스토어 설계
하둡, NoSQL등을 이용하여 비정형 또는 반정형 데이터를 저장하기 위한 논리적, 물리적 데이터 스토어를 설계한다.
- 입력자료 : 데이터 정의서, 데이터 획득 계획서
- 프로세스 및 도구 : 비정형.반정형 데이터 논리설계, 비정형.반정형 데이터 물리설계
- 출력자료 : 비정형 데이터 스토어 설계서, 데이터 매핑 정의서
다. 데이터 수집 및 정합성 점검
구축된 데이터 스토어(Data Store)에 크롤링(Crawling), 시스템간 실시간(Real Time 또는 Near Real Time)처리, 배치(Batch) 처리 등으로 데이터를 수집한다. 또한 데이터베이스간 연동, API(Application Program Interface)를 이용한 개발, ETL(Extract Transform Load) 도구의 활용 등 다양한 방법을 이용하여 데이터 수집 프로세스를 진행한다.
저장된 데이터는 데이터의 품질을 확보하기 위한 정합성 검증을 실시하고 데이터 거버넌스에 근거하여 메타 데이터(Meta Data) 및 데이터 사전(Data Dictionary) 등이 저장되고 적용되고 있는지 주기적으로 확인한다.
1) 데이터 수집 및 저장
크롤링 등의 데이터 수집을 위한 ETL 등의 다양한 도구와 API, 스트립트(Script)프로그램 등을 이용하여 데이터를 수집하고, 수집된 데이터를 설계된 데이터 스토어에 저장한다.
- 입력자료 : 데이터 정의서, 데이터 획득 계획서, 데이터 스토어 설계서
- 프로세스 및 도구 : 데이터 크롤링 도구, ETL 도구, 데이터 수집 스크립트
- 출력자료: 수집된 분석용 데이터
2) 데이터 정합성 점검
데이터 스토어의 품질 점검을 통하여 정합성을 확보하고 데이터 품질개선이 필요한 부분에 대하여 보완 작업을 한다.
- 입력자료 : 수집된 분석용 데이터
- 처리 및 도구 : 데이터 품질 확인, 데이터 정합성 점검 리스트
- 출력자료 : 데이터 정합성 점검 보고서
7. 데이터 분석(Analyzing)
가. 분석용 데이터 준비
분석에 필요한 데이터셋을 준비하기 위하여 프로젝트 목표와 도메인을 이해하고비즈니스 롤(Business Rule)을 확인한다. 전사 차원으로 구축된 데이터 스토어(Data Store)에서 분석용 데이터셋을 ETL 도구등을 이용하여 추출하고 데이터베이스나 구조된 데이터 형태로 편성한다.
1) 비즈니스 룰 확인
분석 계획 단계에서 비즈니스 이해, 도메인 문제점 인식, 프로젝트 정의 등을 이용하여 프로젝트의 목표를 정확하게 인식한다. 이러한 이해를 바탕으로 세부적인 비즈니스 룰을 파악하고 분석에 필요한 데이터의 범위를 확인한다.
- 입력자료 : 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어
- 프로세스 및 도구 : 프로젝트 목표 확인, 비즈니스 룰 확인
- 출력자료 : 비즈니스 룰, 분석에 필요한 데이터 범위
2) 분석용 데이터셋 준비
데이터 스토어부터 분석에 필요한 정형.비정형 데이터를 추출한다. 필요시 적절한 가공을 통하여 분석도구 입력자료로 사용될 수 있도록 편성한다. 분석을 위하여 추출된 데이터는 데이터베이스나 구조화된 형태로 구성하고 필요시 분석을 위한 작업 공간(Play Ground, Sandbox 등)과 전사 차원의 데이터 스토어로 분리할 수도 있다.
- 입력자료 : 데이터 정의서, 데이터 스토어
- 프로세스 및 도구 : 데이터 선정, 데이터 변환, ETL 도구
- 출력자료 : 분석용 데이터셋
________________________________________________________________________________________
나. 텍스트 분석
웹 페이지 데이터, 로그 데이터, 텍스트 자료 등 비정형.반정형의 텍스트 데이터를 이용하여 어휘/구문 분석(Word Analysis), 감성 분석(Sentimental Analysis), 토픽 분석(Topic Analysis), 오피니언 분석(Opinion Analysis), 소설 네트워크 분석(Social Network Analysis) 등을 실시하여 텍스트로부터 분석 목적에 맞는 적절한 모델을 구축한다. 텍스트 분석 결과는 모델링 태스크와 연동하여 프로젝트 목적에 부합되는 최종 모델을 구축하기도 한다.
1) 텍스트 데이터 확인 및 추출
텍스트 분석에 필요한 비정형 데이터를 전사 차원의 데이터 스토어(Data Store)에서 확인하고 필요한 데이터를 추출한다.
- 입력자료 : 비정형 데이터 스토어
- 프로세스 및 도구 : 분석용 텍스트 데이터 확인, 텍스트 데이터 추출
- 출력자료 : 분석용 텍스트 데이터
2) 텍스트 데이터 분석
데이터 스토어에서 추출된 텍스트 데이터를 분석 도구로 적재하여 다양한 기법으로 분석하고 모델을 구축한다. 텍스트 분석을 위해서는 용어 사전(용어 유의어 사전, 불용어 사전 등)을 사전에 확보하거나 업무 도메인에 맞도록 작성해야 한다. 구축된 모델은 텍스트 시각화 도구를 이용하여 모델의 의미 전달을 명확하게 한다.
- 입력자료 : 분석용 텍스트 데이터, 용어사전(용어 유의어 사전, 불용어 사전 등)
- 프로세스 및 도구 : 분류체계 설계, 형태소 분석, 키워드 도출, 토픽 분석, 감성 분석, 오피니언 분석, 네트워크 분석
- 출력자료 : 텍스트 분석 보고서
__________________________________________________________
다. 탐색전 분석
분석용 데이터셋에 대한 정합성 검토, 데이터 요약, 데이터 특성을 파악하고 모델링에 필요한 데이터를 편성한다. 탐색전 데이터 분석인 EDA(Exploratory Data Ananlysis)는 다양한 데이터 시각화(Data Visualization)를 활용하여 데이터의 가독성을 명확히 하고 데이터의 형상 및 분포 등 데이터 특성을 파악하는 태스크이다.
1) 탐색전 데이터 분석
다양한 관점 별로 기초 통계량(평균, 분산, 표준편차, 최대값, 최소값 등)을 산출하고데이터의 분포와 변수간의 관계 등 데이터 자체의 특성(중심성, 분포성, 산포성) 및 데이터의 통계적 특성을 이해하고모델링을 위한 기초 자료로 활용한다.
- 입력자료 : 분석용 데이터셋
- 프로세스 및 도구 : EDA 도구, 통계 분석, 변수간 연관성 분석, 데이터 분포 확인
- 출력자료 : 데이터 탐색 보고서
2) 데이터 시각화
데이터 시각화는 탐색전 데이터 분석을 위한 도구로 활용된다. 그러나 모델의 시스템화를 위한 시각화를 목적으로 활용할 경우 시각화 설계, 시각화 구현 등의 별도의 피로세스를 따라 진행되어야 한다.
탐색전 데이터 부석을 진행하면 수행된 데이터 시각화는 모델링 또는 향후 시스템 구현을 위한 사용자 인터페이스 또는 프로토타입(Prototype)으로 활용될 수도 있다.
- 입력자료 : 분석용 데이터셋
- 프로세스 및 도구 : 시각화 도구 및 패키지, 인포그래픽, 시각화 방법론
- 출력자료 : 데이터 시각화 보고서
______________________________________________________________
라. 모델링
모델링이란 분석용 데이터를 이용한 가설 설정을 통하여 통계 모델을 만들거나 기계학습(Machine Learning)을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정이다. 기계(Supervised Learning)과 비지도학습(Unsupervised Learning)등으로 나뉘어 다양한 알고리즘을 적용할 수 있다. 모델링을 효과적으로 진행하기 위해서는 모델링 전에 데이터셋을 훈련용(Training)과 테스트용(Testing)으로 분할함으로써 모델의 과적합(Overfitting)을 방지하거나 모델의 일반화(Generalization)에 이용된다.
1) 데이터 분할
모델의 과적합과 일반화를 위하여 분석용 데이터셋을 모델 개발을 위한 훈련용 데이터와 모델의검증력을 테스트하기 위한 데이터로 분할한다. 모델에 적용하는 기법에 따라 교차검증(Cross Validation)을 수행하거나 앙상블(Essemble) 깁법을 적용할 경우 데이터 분할 또는 검증 횟수, 생성모델 갯수 등을 설정하여 데이터 분할 기법을 응용한다.
- 입력자료 : 분석용 데이터셋
- 처리 및 도구 : 데이터 분할 패키지
- 출력자료 : 훈련용 데이터, 테스트용 데이터
2) 데이터 모델링
기계학습 등을 이용한 데이터 모델링은 훈련용 데이터를 활용하여 분류(Classification), 예측(Prediction), 군집(Clustering) 등의 모델을 만들어 가동중인 운영 시스템에 적용한다. 또한 필요시 비정형 데이터 분석결과를 통합적으로 활용하여 프로젝트 목적에 맞는 통합 모델링을 수행한다.
- 입력자료 : 분석용 데이터셋
- 처리 및 도구 : 통계 모델링 기법, 기계학습, 모델 테스트
- 출력자료 : 모델링 결과 보고서
3) 모델 적용 및 운영 방안
모델을 가동중인 운영시스테에 적용하기 위해서는 모델에 대한 상세한 알고리즘 설명서 작성이 필요하다. 알고리즘 설명서는 시스템 구현 단계에서 중요한 입력 자료로 활용되므로 필요시 의사코드(Pseudocode)수준의 상세한 작성이 필요할 수도 있다. 또한 모델의 안정적 운영으 ㄹ모니터링하는 방안도 수립한다.
- 입력자료 : 모델링 결과 보고서
- 처리 및 도구 : 통계 모델링 기법, 기계학습, 모델 테스트
- 출력자료 : 모델링 결과 보고서
마. 모델 평가 및 검증
데이터 분석 목적 및 데이터셋 특성에 따라 모델 평가 방법은 다양한다. 분석 기획 단계에서 작성된 프로젝트 정의서의 평가 기준에 따라 모델의완성도를 평가한다.
모델 검증은 분석용 데이터셋이 아닌 별도의 데이터셋으로 모델의 객관성과 실무 적용성을 검증해야 한다.
검증 스템에서 요구되는 성능 목표에 미달하는 경우 모델링 태스크를 반복하는 등 모델 튜닝 작업을 수행한다.
1) 모델 평가
프로젝트 정의서의 모델 평가 기준에 따라 모델을 객관적으로 평가하고 품질관리 차원에서 모델 평가 프로세스를 진행한다. 모델 평가를위해서는 모델 결과 보고서 내의 알고리즘을 파악하고 테스트용 데이터나 필요시 모델 검증을 위한 별도의 데이터를 활용할 수도 있다.
- 입력자료 : 모델링 결과 보고서, 평가용 데이터
- 프로세스 및 도구 : 모델 평가, 모델 품질관리, 모델 개선작업
- 출력자료 : 모델 평가 보고서
2) 모델 검증
모델의 실 적용성을 검증하기 위하여 검증요 데이터를 이용해 모델 검증 작업을 실시하고 모델링 검증 보고서를 작성한다. 검증용 데이터는 모델 개발 및 평가에 활용된 훈련용 데이터나 테스트용 데이터가 아닌 실 운영용 데이터를 확보하여 모델의 품질을 최종 검증하는 프로세스이다.
- 입력자료 : 모델링 결과 보고서, 모델 평가 보고서, 검증용 데이터
- 프로세스 및 도구 : 모델 검증
- 출력자료 : 모델 검증 보고서
8. 시스템 구현(Developing)
가. 설계 및 구현
모델링 결과를 시스템으로 구현하기 위해서는 모델링 태스크에서 작성된 알고리즘 설명서와 데이터 시각화보고서를 이용하여 시스템 및 데이터 아키텍쳐 설계, 사용자 인터페이스 설계를 진행한다. 가동 중인 시스템에 적용하기 위해서는 운영 시스템에 대한 분석도 수행한다.
시스템 설계서를 바탕으로 BI(Business Intelligence)패키지를 활용하거나 새롭게 프로그램 코딩을 통하여 시스템을 구축한다.
1) 시스템 분석 및 설계
가동중인 시스템을 분석하고알고리즘 설명서에 근거하여 응용시스템(Applicatioin)구축 설계 프로세스를 진행한다. 시스템 분석과설계는 사용중인 정보시스템 개발방법론을 커스터마이징하여 적용할 수 있다.
- 입력자료 : 알고리즘 설명서, 운영중인 시스템 설계서
- 프로세스 및 도구 : 정보시스템 개발방법론
- 출력자료 : 시스템 분석 및 설계서
2) 시스템 구현
시스템 분석 및 설계서에 따라 BI 패키지를 활용하거나 새롭게 시스템을 구축하거나 가동중인 운영시스템의 커스터마이징(Customizing) 등을 통하여 설계된 모델을 구현한다.
- 입력자료 : 시스템 분석 및 설계서, 알고리즘 설명서
- 프로세스 및 도구 : 시스템 통합개발도구(IDE), 프로그램 언어, 패키지
- 출력자료 : 구현 시스템
나. 시스템 테스트 및 운영
시스템에 구현된 모델은 테스트를 통하여 가동중인 시스템에 적용하고 효울적인 운영을 위한 프로세스를 진행한다.
1) 시스템 테스트
구축된 시스템의 검증(Verification & Validation)을 위하여 단위 테스트, 통합테스트, 시스템 테스트 등을 실시한다. 시스템 테스트는 품질관리 차원에서 진행함으로써 적용된 시스템의 객관성과 완전성을 확보한다.
- 입력자료 : 구현 시스템, 시스템 테스트 계획서
- 프로세스 및 도구 : 품질관리 활용
- 출력자료 : 시스템 테스트 결과보고서
2) 시스템 운영 계획
구현된 시스템을 지속적으로활용하기 위하여 시스템 운영자, 사용자를 대상으로 필요한 교육을 실시하고 시스템 운영계획을 수립한다.
- 입력자료 : 시스템 분석 및 설계서, 구현 시스템
- 처리 및 도구 : 운영계획 수립, 운영자 및 사용자 교육
- 출력자료 : 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서
9. 평가 및 전개(Deploying)
가. 모델 발전 계획 수립
업무 특성 및 운영 데이터의 품질에 따라 모델 성능은 많은 영향을 받게되고 이를 개선하는 노력이 주기적으로진행되어야 한다. 모델의 생명 주기(Life Cycle)를 설정하고 주기적인 평가를 실시하여 모델을 유지보수 하거나 재구축하기 위한 방안을 마련한다. 모델의 이러한 특성을 고려하여 모델 업데이트를 자동화하는 방안을 수립하여 적용할 수도 있다.
1) 모델 발전 계획
개발된 모델의 지속적인 운영과 기능 향상을 위한 발전계획을 상세하게 수립하여 모델의 계속성을 확보해야 한다.
- 입력자료 : 구현 시스템, 프로젝트 산추물
- 프로세스 및 도구 : 모델 발전 계획 수립
- 출력자료 : 모델 바리전 계획서
나. 프로젝트 평가 및 보고
분석 기획 단계에서 설정된 기준에 따라 프로젝트의 성과를 정량적, 정성적으로 평가하고 프로젝트 진행고정에서 산출된 지식, 프로세스, 출력자료를 지식자산화하고 프로젝트 최종 보고서를 작성한 후 의사소통계획에 따라 보고함으로써 프로젝트를 종료한다.
1) 프로젝트 성과 평가
프로젝트의 정량적 성과와 정성적 성과로 나누어 성과 평가서를 작성한다.
- 입력자료 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서
- 프로세스 및 도구 : 프로젝트 평가 기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가
- 출력자료 : 프로젝트 성과 평가서
2) 프로젝트 종료
프로젝트 진행과정의 모든 산출물 및 프롷세스를 지식자산화 하고 최종 보고서를 작성하여 의사소통 절차에 따라 보고하고 프로젝트를 종료한다.
- 입렺자료 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트성과 평가서
- 프로세스 및 도구 : 프로젝트 지식자산화 작업, 프로젝트 종료
- 출력자료 : 프로젝트 최종 보고서
최근 기업 경쟁력을 향상하기 위하여 데이터 분석 및 활용의 중요성이 강조되고 있다. 지금까지 기업들은 일반 수준의 품질목표나 재무성과를 달성하기 위하여 데이터 기반의 의사결정보다는 경험과 감에 의한 판단만으로도 어느 정도 목표를 달성할 수 있었다. 그러나 극한의 글로벌 경쟁 환경에서는 더 이상 경험과 감에의한 의사결정으로는 한계가 있음을 인식하고 데이터 기반의 의사결정을 위하여 많은 노력을 기울이고 있다.
고정 관념(Stereotype), 편향된 생각(Bias) 프레이밍 효과(Framing Effect:문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판안이나 선택이 달라질 수 있는 현상) 등은 기업의 합리적 의사결정을 가막는 장애 요소이다. 데이터 기반의 의사결정을 위해서는 기업 문화의 변화와 업무 프로세스의 개선이 필요하고 이를 촉진시키는 도로고써 데이터 분석을 활용할 수 있다.
데이터 분석을 효과적으로 기업내 정착하기 위해서는 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필요적이다. 프로젝트는 한 개인의 역량이나 또는 조직의 우연한 성공에 기인해서는 안되고 일정한 수준의 품질을 갖춘 산출물과 프로제그의 성공 가능성을 확보하고 제시할 수 있어야 한다. 따라서 방법론은 상세한 절차(Procedures), 방법(Methods), 도구와 기법(Tools & Techniques), 템플릿과 산춘물(Templates & Outputs)로 구성되어 어느 정도의 지식만 있으면 활용이 가능해야 한다.
일반적으로 방법론의 생성 과정은 그림과 같이 개인의 암묵지가 조직의 형식지로 발전하는 형식화 과정을 거치고, 이를 체계화하여 문서화한 최적화된 형식지로 전개됨으로 방법론이 만들어질 수 있다. 이렇게 만들어진 방법론은 다시 개인에게 전파되고 활용되는 내재화 과정을 거쳐 암묵지로발전하는 선순환 화정이 진행되면서 조직 내 방법론이 완성될 수 있다.
방법론은 적용 업무의 특성에 따라 다양한 모델을 가질 수 있다. 폭포수 모델(Waterfall Model)은 단계를 순차적으로 진행하는 방법으로 이전 단계가 완료되어야 다음 단계로 진행될 수 있으며 하향식(Top Down)으로 진행되지만 문제나 개선사항이 발견되면 전 단계로 돌아가는 피드백(Feedback)과정이 수행되기도 한다.
나선형 모델(Spiral Model)은 반복을 통하여 점증적으로 개발하는 방법으로써 처음시도하는 프로젝트에 적용이 용의하지만, 반복에 대한 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다. 이 이외에도프로토타입 모델(Prototype Model) 등 다양한 모델이 있다. 빅데이터 분석에서도 분석 과제의 특징과 조직의 역량에 따라 다양한 모델을 기반으로 방법론을 구축할 수 있다.
일반적으로 방법론은 계층적 프로세스 모델(Stepwised Process Model)의 형태로 구성된다. 최상위 계층은 단계(Phase)로서 프로세스 그룹(Process Group)을 통하여 완성된 단계별 산출물이 생성되어야 한다.
각 단계는 기준선(Baseline)으로 설정되어 관리되어야 하며 버전관리(Configuration Management)등을 통하여 통제가 이루어져야 한다. 각 단계는 여러개의 태스크(Task)로 구성되는데 각 태스크는 단계를 구성하는 단위 활동으로써 물리적 또는 논리적 단위로 품질검토의 항목이 될 수 있다. 마지막 계층은 스텝(Step)으로서 WBS(Work Breakdown Structure)의 위크패키지(Work Package)에 해당되고 입력자료(Input), 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)이다.
2. KDD 분석 방법론
KDD(Knowledge Discovery in Databases)는 1996년 Fayyad가 체계적으로 정리한 데이터 마이닝 프로세스로써 데이터베이스에서의미 있는 지식을 탐색하는 데이터 마이닝부터, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖고 있다. KDD는 데이터에서 패턴을 찾는 과정을 다음과 같이 9개 프로세스로 제시하고 있다.
- 분석 대상 비즈니스 도메인의 이해
- 분석 대상 데이터셋 선택과 생성
- 데이터에 포함되어 있는 노이즈(Noise)와 이상값(Outlier)등을 제거하는 정제작업이나 선처리
- 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경
- 분석 목적에 맞는 데이터 마이닝 기법 선택
- 데이터 마이닝 시행
- 데이터 마이닝 결과에 대한 해석
- 데이터 마이닝에서 발견된 지식 활용
가. 데이터셋 선택(Selection)
데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트의 목표를 정확하게 설정한다.
데이터셋 선택은 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하고 필요한 경우 추가적으로 데이터셋을 생성할 수 있다. 데이터셋 선택 프로세스를 통하여 데이터 마이닝에 필요한 목표 데이터(Target Data)를 구성하고 다음 단계인 데이터 전처리 프로세스를 통하여 데이터셋 추가가 요구되는 경우 이 선택 프로세스를 반복할 수 있다.
나. 데이터 전처리(Preprocessing)
데이터셋 선택 프로세스에서 추출된 분석 대상용 데이터셋에 포함되어 있는 잡음(Noise)과 이상값(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거하거나 의미 있는 데이터로 처리하는 데이터셋 정제작업을 시행한다. 데이터 전처리 프로세스를 수행하는 과정에서 추가적인 데이터셋이 필요한 경우 데이터셋 선택 프로세스를 반복할 수 있다.
다. 데이터 변환(Transformation)
데이터 전처리 프로세스를 통하여 분석용 데이터셋이 편성되면 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터 마이닝을 효율적으로 적용될 수 있도록 데이터셋을 변경하는 프로세스를 수행한다.
라. 데이터 마이닝(Data Minig)
데이터 변환 프로세스를 통하여 만들어진 분석용 데이터셋을 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 데이터 마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터를 분류 또는 예측 등 아이닝 작업을 시행한다. 데이터 마이닝 프로세스를 수행하는 과정에서 필요에 따라 데이터 전처리, 데이터 변환 프로세스를 병행할 수 있다.
마. 데이터 마이닝 결과 평가(Interpretation/Evaluation)
데이터 마인ㅇ 결과에 대한 해석과 평가 그리고 분석 목적과의 일치성을 확인한다. 데이터 마이닝을 통하여 발견된 지식을 업무에 활용하기 위한 방안을 찾고필요에 따라 데이터셋 선택 프로세스부터 데이터 마이닝 프로세스를 반복하여 수행한다.
3. CRISP-DM 분석 방법론
CRISO-DM(Cross Industry Standard Process fo Data Mining)은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었고 DaimlerChryrler, SPASS, NCR 등이 참여하여 1999년 첫 버전을 발표하였다.
CRISP-DM은 계층적 프로세스 모델(Hierarchical Process Model)로써 4개 레벨로 구성되어 있다.
최상위 레벨은 여러 갱의 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Generic Tasks)를 포함한다.
일반화 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이다. 세 번째 레벨은 세분화 태스크(Specilized Tasks)로 일반화 태스크를 구체적으로 수행하는 레벨이다. 예를 들어 데이터 정제(Data Cleaning)의 일반화 태스크는 범주형 데이터 정제, 연속형 데이터 정제 등으로 구체화된 세분화 태스크가 있다. 마지막 레빌인 프로세스 실행(Process Instances)은 데이터 마이닝을 위한 구체적인 실행을 포함한다.
CRISP-DM 프로세스는 6단계로 구성되어 있으며, 각 단계는 폭포수 모델(Waterfall Model)처럼 일방향으로 구성되어 있지 않고 단계 간 피드백(Feedback)을 통하여 단계별 완성도를 높이게 되어 있다.
가. 업무 이해(Business Understanding)
비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계로써 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립하는 단계이다.
- 업무 목적 파악
- 상황 파악
- 데이터 마이닝 목표 설정
- 프로젝트 계획 수립
나. 데이터 이해(Data Understanding)
데이터 이해는 분석을 위한 데이터를 수집하고데이터 속성을 이해하기 위한 과정으로 구성되고 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계이다.
- 초기 데이터 수집
- 데이터 기술 분석
- 데이터 탐색
- 데이터 품질 확인
다. 데이터 준비(Data Preparation)
데이터 준비는 분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터셋을 편성하는 단계로써 많은 시간이 소요될 수 있다.
- 분석용 데이터셋 선택
- 데이터 정제
- 분석용 데이터셋 편성
- 데이터 통합
- 데이터 포맷팅
라. 모델링(Modeling)
다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계이다. 모델링 과정에서 데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있다. 모델링 단계를 통하여 찾아낸 모델은 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합(Overfitting) 등의 문제를 발견하고 대응 방안을 마련한다.
- 모델링 기법 선택
- 모델 테스트 계획 설계
- 모델 작성
- 모델 평가
마. 평가(Evaluation)
모델링 단계에서 얻은 모델이 프로젝트의 목적에 부합하는지를 평가한다. 이 단계의 목적은 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단하는 과정이다.
- 분석결과 평가
- 모델링 과정 평가
- 모델 적용성 평가
바. 전개(Deployment)
모델링과 평가 단계를 통하여 완성된 모델은 실 업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유지보수 계획을 마련한다. 모델은 적용되는 비즈니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영 모델의 평가 기분 등에 따라 생명주기(Life Cycle)가 다양하므로 상세한 전재 계획이 필요하다. 또한 CRSIP-DM의 마지막 단계이므로 프로젝트 종료 관련 프로세스를 수행하여 프로젝트를 완료시킨다.
- 전개 계획 수립
- 모니터링과 유지보수 계획 수립
- 프로젝트 종료보고서 작성
- 프로젝트 리뷰
4. 빅데이터 분석 방법론
빅데이터를 분석하기 위한 방법론은 계층적 프로세스 모델(Stepwised Process Model)로써 3계층으로 구성된다. 최상위 계층은 단계(Phase)로서 프로세스 그룹(Process Group)을 통하여 완성된 단계별 산출물이 생성되어야 한다. 각 단계는 기준선(Baseline)으로 설정되어 관리되어야 하며 버전과리(Configuration Management)등을 통하여 통제가 이루어져야 한다. 각 단계는 여러 개의 태스크(Task)로 구성되는데 각 태스크는 단계를 구성하는 단위 활동으로써 물리적 또는 논리적 단위로 품질검토의 항목이 될 수 있다.
마지막 계층은 스텝(Step)으로서 WBS(Work Breakdown Structure)의 워크패키지(Work Package)에 해당되고 입력자료(Input), 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)이다.
빅데이터 분석 방법론은 비즈니스 도메인과 문제점을 인식하고 분석계획 및 프로젝트 수행계획을 수립하는 분석 기획(Planning)단계와 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 데이터 준비(Preparing)단계로 구성된다. 데이터 분석을 위한 원천 데이터가 확보되면 분석용 데이터셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용한 데이터 분석(Analyzing)단계를 수행한다.
분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비단계로 피드백(Feedback)하여 두 단계를 반복하여 진행한다. 데이터 분석 단계를 진행하ㅕㄴ서 분석 기획에 맞는 모델을 도출하고이를 운영중인 가동 시스템에 적용하거나 시스템 개발을 위한 사전 검증으로 프로토타입 시스템을 구현하고자 하는 경우 시스템 구현(Developing)단계를 수행한다. 데이터 분석 및 시스템 구현 단계를 수행한 후 프로젝트의 성과를 평가하고 정리(Lesson Learned)하거나 모델의 발전 계획을 수립하여 차기 분석 기획으로 전달하는 평가 및 전개(Deploying)단계를 수행하여 빅데이터 분석 프로젝트를 종료한다.
가. 분석 기획(Planning)
분석 기획 단계는 분석하려는 비즈니스를 이해하고 도메인의 문제점을 파악하여 빅데이터 분석 프로젝트의 범위를 확정하는 단계이다. 또한 프로젝트의 정의 및 수행계획을 구체적이고 상세하게 수립하여 향후 프로젝트 진행의 기준선이 되도록 준비한다.
빅데이터 분석 프로젝트는 단순한 데이터 분석이나 아이닝이 아닌 대용량의 정형.비정형 데이터를 활요해야 하고 분석 및 운영을 위한 인프라 구축을 병행하거나 또는 기존 시스템(Legacy System)과의 많은 인터페이스를 동반하는 등 프로젝트내에 위험(Risk)요소가 많이 있으므로 분석 기획 단계에서 프로젝트의 위험을 사전에 식별하고 대응방안을 수립하는 프로세스도 진행한다.
- 비즈니스 이해 및 범위 설정
- 프로젝트 정의 및 계획 수립
- 프로젝트 위험 계획 수립
나. 데이터 준비(Preparing)
분석 기획에 근거하여 비즈니스 요구사항을 데이터 차원에서 다시 파악하고 프로젝트별로 필요로 하는 데이터를 정의하여 전사 차원의 데이터 스토어(Data Store)를 준비한다.
데이터 수집 저장은 조직 내.외부에서 정형.비정형 데이터를 수집해야 하는 복잡하고 많은 시간이 소요되므로 작업의 효율성을 위하여 필요시 ETL(Extract Transform Load)등의 다양한 도구를 사용한다. 또한 분석에 활용되기 위해서는 데이터의 품질확보가 중요하므로 품질통제와 품질보증 프로세스도 수행한다.
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 점검
다. 데이터 분석(Analyzing)
데이터 준비 단계에서 확보된 정형.비정형 데이터를 이용하여 분석 기획 단계에서 수립된 프로젝트 목표를 달성하기 위하여 데이터 분석 프로세스를 진행한다. 데이터 스토어(Data Store)에서 분석에 필요한 데이터셋을 준비하고 탐색전 분석, 모델링과 모델 평가 태스크를 진행한다.
비정형 텍스트 데이터가 존재할 경우 텍스트 마이닝, 텍스트 분류 등의 분석 기법과 알고리즘을 이용하여 비정형 분석을 실시하고 필요시 정형 데이터와 결합하여 통합 모델링을 수행한다. 분석용 데이터셋을 추출하는 과정에서 분석에 필요한 충분한 데이터를 확보할 수 없을 경우 데이터 준비 단계를 반봅하여 수행한다.
- 분석용 데이터 준비
- 텍스트 분석
- 탐색전 분석
- 모델링
- 모델 평가 및 검증
- 모델적용 및 운영방안 수립
라. 시스템 구현(Developing)
분석 기획의 의도에 맞는 모델을 데이터 분석 단계를 진행하여 도출하고이를 운영중인 시스템에 적용하거나 프로토타입(Prototype)을 구현하고자 하는 경우 시스템 구현 단계를 진행한다. 단순한 데이터 분석이나 데이터 마이닝을 통한 분석 보고서를 작성하는 것으로 프로젝트가 종료되는 경유에는 시스템 구현 단계를 수행할 필요가 없고 다음 단계인 평가 및 전개 단계를 수행한다.
시스템 구현 단계는 소프트위어공학(Software Engineering), 정보공학(Information Engineering), CBD(Component Based Development)등 일반적으로 사용되는 소프트웨어 개발 생명주기인 SDLC(Software Development Life Cycle)와 기업내 시스템 개발을 위하여 사용하고 있는 방법론을 커스터마이징(Customizing)하여 적용할 수도 있다.
- 설계 및 구현
- 시스템 테스트 및 운영
마. 평가 및 전개(Deploying)
평가 및 전개 단계에서는 분석 기획 단계에서 수립된 프로젝트의 목적을 달성했는지의 여부를 평가하고 데이터 분석 단계와 시스템 구현 단계에서 구축된 모델의 발전계획을 수립하는 등 빅데이터 분석 프로젝트의 종료 및 전개 프로세스로 구성된다. 또한 수행된 프로젝트를 객관적이고 정량적으로 평가하여 내부 활용 및 자산화를 추진한다.
프로젝트 수행 중에 발생된 모든 중간 산출물을 정리하고 프로젝트 종료 보고서를 작성하여 의사소통 체계에 따라 보고하고 프로젝트를 종료한다.
- 모델 발전계획 수립
- 프로젝트 평가 및 보고
____________________________________________________________________________
5. 분석 계획(Planning)
가. 비즈니스 이해 및 범위 설정
빅데이터 분석 프로젝트를 진행하기 위해서는 비즈니스에 대한 충분한 이해와 도메인에 대한 문제점을 파악한다. 비즈니스 이해와 문제점을 파악을 위해서는 업무 매뉴얼 및 업무 전문가의 도움이 필요하다. 프로젝트의 범위를 명확하게 파악하기 위해서는 구조화된 명세서를 작성한다.
1) 비즈니스 이해
빅데이터 분석 대상인 업무 도메인을 이해하기 위해서는 내부 업무 매뉴얼과 관련자료, 외부의 관련 비즈니스 자료를 조사하고 향후 프로젝트 진행을 위한 방향을 설정한다.
- 입력자료: 업무 매뉴얼, 업무전문가의 지식, 빅데이터 분석 대상 도메인에 대한 관련 자료
- 프로세스 및 도구 : 자료 수집 및 비즈니스 이해
- 출력자료 : 비즈니스 이해 및 도메인 문제점
2) 프로젝트 범위 설정
빅데이터 분석 프로젝트의 대상인 비즈니스에 대한 이해와 프로젝트 목적에 부합되는 범위(Scope)을 명확하게 설정하고 프로젝트에 참여하는 모든 관계자들(Project stakehoders)의 이해를 일치시키기 위하여 구조화된 프로젝트 범위 정의서인 SOW(Statement Of Work)를 작성한다.
- 입력자료 : 중장기 계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점
- 프로세스 및 도구 : 자료 수집 및 비즈니스 이해, 프로젝트 범위 정의서 작성 절차
- 출력자료 : 프로젝트 범위 정의(SOW)
나. 프로젝트 정의 및 계획 수립
빅데이터 분석 프로젝트 추진 목표를 명확하게 정의하고구체화하기 위하여 모델의 운영 이미지를 설계하고 모델 평가 기준을 설정함으로써 프로젝트 정의를 명확하게 한다.
프로젝트 정의가 명확하게 설정되면 이를 기준으로 프로젝트의 WBS(Work Breakdown Structure)를 만들고 데이터 확보 계획, 빅데이터 분석 방법, 일정계획, 예산계획, 품질계획, 인력구성계획, 의사소통계획 등을 포함하는 프로젝트 수행 계획을 작성한다.
1) 데이터 분석 프로젝트 정의
프로젝트의 목표 및 KPI, 목표 수준 등을 구체화하여 상세 프로젝트 정의서를 작성하고 프로젝트의 목표를 명화화 하기 위하여 모델 운영 이미지 및 평가 기준을 설정한다.
- 입력자료: 프로젝트 범위 정의서, 빅데이터 분석 프로젝트 지시서
- 프로세스 및 도구 : 프로젝트 목표 구체화, 모델 운영 이미지 설계
- 출력자료 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
2) 프로젝트 수행 계획 수립
프로젝트 수행 계획서를 작성하는 단계로써 프로젝트의 목적 및 배경, 기대효과, 수행방법, 일정 및 추진조직, 프로젝트 관리방안을 작성한다. WBS는 프로젝트 산출물 위주로 작성되어 프로젝트의 범위를 명확하게 한다.
- 입력자료 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
- 프로세스 및 도구 : 프로젝트 수행 계획 작성, WBS 작성 도구, 일정계획 수립 도구
- 출력자료 : 프로젝트 수행 계획서, WBS
___________________________________________________________________________
다. 프로젝트 위험계획 수립
빅데이터 분석 프로젝트는 내.외부 시스템간 다양한 인터페이스, 대량의 정형.비정형 데이터 연계, 개인정보보호 등으로데이터 획득 및 활용에 현실적으로 많은 어려움이 있다. 따라서 계획수립 단계에서 빅데이터분석 프로젝트를 진행하면서 발생 가능한 모든 위험(Risk)를 발굴하여 사전에 대응 방안을 수립함으로써 프로젝트 진행의 완전성을 높인다.
1) 데이터 분석 위험 식별
선행하여 진행된 프로젝트 산출물과 정리자료(Lesson Learned)를 참조하고 전문가의 판단을 활요하여 빅데이터 분석 프로젝트를 진행하면서 발생 가능한 위험을 식별한다. 식별된 위험은 위험의 영향도와 빈도, 발생가능성 등을 평가하여 위험의 우선순위를 설정한다.
-입력자료 : 프로젝트 정의서, 프로젝트 수행 계획서, 선행 프로젝트 산출물 및 정리자료
- 프로세스 및 도구 : 위험 식별 절차, 위험영향도 및 발생가능성 분석, 위험 우선순위 판단
- 출력자료 : 식별된 위험 목록
2) 위험 대응 계획 수립
식별된 위험은 상세한 정량적.정성적 분석을 통하여 위험 대응방안을 수립한다. 예상되는 위험에 대한 대응은 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept)로 구분하여 위험 관리 계획서를 작성한다.
- 입력자료 : 식별된 위험 목록, 프로젝트 정의서, 프로젝트 수행 계획서
- 프로세스 및 도구 : 위험 정량적 분석, 위험 정성적 분석
- 출력자료 : 위험과리 계획서
6. 데이터 준비(Preparing)
가. 필요 데이터 정의
빅데이터 분석 프로젝트 진행에 필요한 데이터를 정의하는 단계로써 전사 차원에서 필요 데이터를 정의하는 것이 중요하며 정형.비정형.반정형 등의 모든 내.외부 데이터를 포함하고 데이터의 속성, 데이터 오너, 데이터 관련 시스템 담당자 등을 포함하는 데이터 정의서를 작성한다. 데이터 정의서를 이용하여 구체적인 데이터 획등방안을 상세하게 수립함으로써 데이터 획득 과정에서 발생하는 프로젝트 지연을 방지한다.
1) 데이터 정의
시스템, 데이터베이스, 파일, 문서 등의 다양한 내.외부 원천 데이터 소스(Raw Data Source)로 부터 분석에 필요한 데이터를 정의한다.
- 입력자료 : 프로젝트 수행 계획서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료
- 프로세스 및 도구 : 내.외부 데이터 정의, 정형.비정형.반정형 데이터 정의
- 출력자료 : 데이터 정의서
2) 데이터 획득방안 수립
내.외부의 다양한 데이터 소스로부터 정형.비정형.반정형 데이터를 수집하기 위한 구체적인 방안을 수립한다. 내부 데이터 획득에는 부서간 업무협조와 개인정보보호 및 정보보안과 관련한 문제점을 사전에 점검하고, 외부 데이터의획득은 시스템간 다양한 인터페이스 및 법적인 문제점을 고려하여 상세한 데이터 획득계획을 수립한다.
- 입력자료 : 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료, 데이터 구입
- 프로세스 및 도구 : 데이터 획득 방안 수립
- 출력자료 : 데이터 획득 계획서
나. 데이터 스토어 설계
빅데이터 분석 프로젝트의 목적을 파악하고필요한 데이터를 정의한 후 데이터 획득방안이 수립되면 데이터를 저장하기 위한 전사 차원의 데이터 스토어(Data Store)를 설계한다. 데이터 스토어는 정형.비정형.반정형 데이터를 모두 저장될 수 있도록 설계한다.
1) 정형 데이터 스토어 설계
정형 데이터는 구조화된 형식으로 데이터베이스나 파일 시스템 등 다양한 데이터 스토어 형태를 가질 수 있으나 일반적으로 관계형 데이터베이스인 RDBMS(Relational Data Base Management System)를 사용하고 데이터의 효율적인 저장과 활용을 위하여 데이터 스토어의 논리적, 물리적 설계를 구분하여 설계한다.
- 입력자료 : 데이터 정의서, 데이터 획득 계획서
- 프로세스 및 도구 : 데이터베이스 논리설계, 데이터베이스 물리설계, 데이터 매핑(Data Mapping)
- 출력자료 : 정형 데이터 스토어 설계서, 데이터 매핑 정의서
2) 비정형 데이터 스토어 설계
하둡, NoSQL등을 이용하여 비정형 또는 반정형 데이터를 저장하기 위한 논리적, 물리적 데이터 스토어를 설계한다.
- 입력자료 : 데이터 정의서, 데이터 획득 계획서
- 프로세스 및 도구 : 비정형.반정형 데이터 논리설계, 비정형.반정형 데이터 물리설계
- 출력자료 : 비정형 데이터 스토어 설계서, 데이터 매핑 정의서
다. 데이터 수집 및 정합성 점검
구축된 데이터 스토어(Data Store)에 크롤링(Crawling), 시스템간 실시간(Real Time 또는 Near Real Time)처리, 배치(Batch) 처리 등으로 데이터를 수집한다. 또한 데이터베이스간 연동, API(Application Program Interface)를 이용한 개발, ETL(Extract Transform Load) 도구의 활용 등 다양한 방법을 이용하여 데이터 수집 프로세스를 진행한다.
저장된 데이터는 데이터의 품질을 확보하기 위한 정합성 검증을 실시하고 데이터 거버넌스에 근거하여 메타 데이터(Meta Data) 및 데이터 사전(Data Dictionary) 등이 저장되고 적용되고 있는지 주기적으로 확인한다.
1) 데이터 수집 및 저장
크롤링 등의 데이터 수집을 위한 ETL 등의 다양한 도구와 API, 스트립트(Script)프로그램 등을 이용하여 데이터를 수집하고, 수집된 데이터를 설계된 데이터 스토어에 저장한다.
- 입력자료 : 데이터 정의서, 데이터 획득 계획서, 데이터 스토어 설계서
- 프로세스 및 도구 : 데이터 크롤링 도구, ETL 도구, 데이터 수집 스크립트
- 출력자료: 수집된 분석용 데이터
2) 데이터 정합성 점검
데이터 스토어의 품질 점검을 통하여 정합성을 확보하고 데이터 품질개선이 필요한 부분에 대하여 보완 작업을 한다.
- 입력자료 : 수집된 분석용 데이터
- 처리 및 도구 : 데이터 품질 확인, 데이터 정합성 점검 리스트
- 출력자료 : 데이터 정합성 점검 보고서
7. 데이터 분석(Analyzing)
가. 분석용 데이터 준비
분석에 필요한 데이터셋을 준비하기 위하여 프로젝트 목표와 도메인을 이해하고비즈니스 롤(Business Rule)을 확인한다. 전사 차원으로 구축된 데이터 스토어(Data Store)에서 분석용 데이터셋을 ETL 도구등을 이용하여 추출하고 데이터베이스나 구조된 데이터 형태로 편성한다.
1) 비즈니스 룰 확인
분석 계획 단계에서 비즈니스 이해, 도메인 문제점 인식, 프로젝트 정의 등을 이용하여 프로젝트의 목표를 정확하게 인식한다. 이러한 이해를 바탕으로 세부적인 비즈니스 룰을 파악하고 분석에 필요한 데이터의 범위를 확인한다.
- 입력자료 : 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어
- 프로세스 및 도구 : 프로젝트 목표 확인, 비즈니스 룰 확인
- 출력자료 : 비즈니스 룰, 분석에 필요한 데이터 범위
2) 분석용 데이터셋 준비
데이터 스토어부터 분석에 필요한 정형.비정형 데이터를 추출한다. 필요시 적절한 가공을 통하여 분석도구 입력자료로 사용될 수 있도록 편성한다. 분석을 위하여 추출된 데이터는 데이터베이스나 구조화된 형태로 구성하고 필요시 분석을 위한 작업 공간(Play Ground, Sandbox 등)과 전사 차원의 데이터 스토어로 분리할 수도 있다.
- 입력자료 : 데이터 정의서, 데이터 스토어
- 프로세스 및 도구 : 데이터 선정, 데이터 변환, ETL 도구
- 출력자료 : 분석용 데이터셋
________________________________________________________________________________________
나. 텍스트 분석
웹 페이지 데이터, 로그 데이터, 텍스트 자료 등 비정형.반정형의 텍스트 데이터를 이용하여 어휘/구문 분석(Word Analysis), 감성 분석(Sentimental Analysis), 토픽 분석(Topic Analysis), 오피니언 분석(Opinion Analysis), 소설 네트워크 분석(Social Network Analysis) 등을 실시하여 텍스트로부터 분석 목적에 맞는 적절한 모델을 구축한다. 텍스트 분석 결과는 모델링 태스크와 연동하여 프로젝트 목적에 부합되는 최종 모델을 구축하기도 한다.
1) 텍스트 데이터 확인 및 추출
텍스트 분석에 필요한 비정형 데이터를 전사 차원의 데이터 스토어(Data Store)에서 확인하고 필요한 데이터를 추출한다.
- 입력자료 : 비정형 데이터 스토어
- 프로세스 및 도구 : 분석용 텍스트 데이터 확인, 텍스트 데이터 추출
- 출력자료 : 분석용 텍스트 데이터
2) 텍스트 데이터 분석
데이터 스토어에서 추출된 텍스트 데이터를 분석 도구로 적재하여 다양한 기법으로 분석하고 모델을 구축한다. 텍스트 분석을 위해서는 용어 사전(용어 유의어 사전, 불용어 사전 등)을 사전에 확보하거나 업무 도메인에 맞도록 작성해야 한다. 구축된 모델은 텍스트 시각화 도구를 이용하여 모델의 의미 전달을 명확하게 한다.
- 입력자료 : 분석용 텍스트 데이터, 용어사전(용어 유의어 사전, 불용어 사전 등)
- 프로세스 및 도구 : 분류체계 설계, 형태소 분석, 키워드 도출, 토픽 분석, 감성 분석, 오피니언 분석, 네트워크 분석
- 출력자료 : 텍스트 분석 보고서
__________________________________________________________
다. 탐색전 분석
분석용 데이터셋에 대한 정합성 검토, 데이터 요약, 데이터 특성을 파악하고 모델링에 필요한 데이터를 편성한다. 탐색전 데이터 분석인 EDA(Exploratory Data Ananlysis)는 다양한 데이터 시각화(Data Visualization)를 활용하여 데이터의 가독성을 명확히 하고 데이터의 형상 및 분포 등 데이터 특성을 파악하는 태스크이다.
1) 탐색전 데이터 분석
다양한 관점 별로 기초 통계량(평균, 분산, 표준편차, 최대값, 최소값 등)을 산출하고데이터의 분포와 변수간의 관계 등 데이터 자체의 특성(중심성, 분포성, 산포성) 및 데이터의 통계적 특성을 이해하고모델링을 위한 기초 자료로 활용한다.
- 입력자료 : 분석용 데이터셋
- 프로세스 및 도구 : EDA 도구, 통계 분석, 변수간 연관성 분석, 데이터 분포 확인
- 출력자료 : 데이터 탐색 보고서
2) 데이터 시각화
데이터 시각화는 탐색전 데이터 분석을 위한 도구로 활용된다. 그러나 모델의 시스템화를 위한 시각화를 목적으로 활용할 경우 시각화 설계, 시각화 구현 등의 별도의 피로세스를 따라 진행되어야 한다.
탐색전 데이터 부석을 진행하면 수행된 데이터 시각화는 모델링 또는 향후 시스템 구현을 위한 사용자 인터페이스 또는 프로토타입(Prototype)으로 활용될 수도 있다.
- 입력자료 : 분석용 데이터셋
- 프로세스 및 도구 : 시각화 도구 및 패키지, 인포그래픽, 시각화 방법론
- 출력자료 : 데이터 시각화 보고서
______________________________________________________________
라. 모델링
모델링이란 분석용 데이터를 이용한 가설 설정을 통하여 통계 모델을 만들거나 기계학습(Machine Learning)을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정이다. 기계(Supervised Learning)과 비지도학습(Unsupervised Learning)등으로 나뉘어 다양한 알고리즘을 적용할 수 있다. 모델링을 효과적으로 진행하기 위해서는 모델링 전에 데이터셋을 훈련용(Training)과 테스트용(Testing)으로 분할함으로써 모델의 과적합(Overfitting)을 방지하거나 모델의 일반화(Generalization)에 이용된다.
1) 데이터 분할
모델의 과적합과 일반화를 위하여 분석용 데이터셋을 모델 개발을 위한 훈련용 데이터와 모델의검증력을 테스트하기 위한 데이터로 분할한다. 모델에 적용하는 기법에 따라 교차검증(Cross Validation)을 수행하거나 앙상블(Essemble) 깁법을 적용할 경우 데이터 분할 또는 검증 횟수, 생성모델 갯수 등을 설정하여 데이터 분할 기법을 응용한다.
- 입력자료 : 분석용 데이터셋
- 처리 및 도구 : 데이터 분할 패키지
- 출력자료 : 훈련용 데이터, 테스트용 데이터
2) 데이터 모델링
기계학습 등을 이용한 데이터 모델링은 훈련용 데이터를 활용하여 분류(Classification), 예측(Prediction), 군집(Clustering) 등의 모델을 만들어 가동중인 운영 시스템에 적용한다. 또한 필요시 비정형 데이터 분석결과를 통합적으로 활용하여 프로젝트 목적에 맞는 통합 모델링을 수행한다.
- 입력자료 : 분석용 데이터셋
- 처리 및 도구 : 통계 모델링 기법, 기계학습, 모델 테스트
- 출력자료 : 모델링 결과 보고서
3) 모델 적용 및 운영 방안
모델을 가동중인 운영시스테에 적용하기 위해서는 모델에 대한 상세한 알고리즘 설명서 작성이 필요하다. 알고리즘 설명서는 시스템 구현 단계에서 중요한 입력 자료로 활용되므로 필요시 의사코드(Pseudocode)수준의 상세한 작성이 필요할 수도 있다. 또한 모델의 안정적 운영으 ㄹ모니터링하는 방안도 수립한다.
- 입력자료 : 모델링 결과 보고서
- 처리 및 도구 : 통계 모델링 기법, 기계학습, 모델 테스트
- 출력자료 : 모델링 결과 보고서
마. 모델 평가 및 검증
데이터 분석 목적 및 데이터셋 특성에 따라 모델 평가 방법은 다양한다. 분석 기획 단계에서 작성된 프로젝트 정의서의 평가 기준에 따라 모델의완성도를 평가한다.
모델 검증은 분석용 데이터셋이 아닌 별도의 데이터셋으로 모델의 객관성과 실무 적용성을 검증해야 한다.
검증 스템에서 요구되는 성능 목표에 미달하는 경우 모델링 태스크를 반복하는 등 모델 튜닝 작업을 수행한다.
1) 모델 평가
프로젝트 정의서의 모델 평가 기준에 따라 모델을 객관적으로 평가하고 품질관리 차원에서 모델 평가 프로세스를 진행한다. 모델 평가를위해서는 모델 결과 보고서 내의 알고리즘을 파악하고 테스트용 데이터나 필요시 모델 검증을 위한 별도의 데이터를 활용할 수도 있다.
- 입력자료 : 모델링 결과 보고서, 평가용 데이터
- 프로세스 및 도구 : 모델 평가, 모델 품질관리, 모델 개선작업
- 출력자료 : 모델 평가 보고서
2) 모델 검증
모델의 실 적용성을 검증하기 위하여 검증요 데이터를 이용해 모델 검증 작업을 실시하고 모델링 검증 보고서를 작성한다. 검증용 데이터는 모델 개발 및 평가에 활용된 훈련용 데이터나 테스트용 데이터가 아닌 실 운영용 데이터를 확보하여 모델의 품질을 최종 검증하는 프로세스이다.
- 입력자료 : 모델링 결과 보고서, 모델 평가 보고서, 검증용 데이터
- 프로세스 및 도구 : 모델 검증
- 출력자료 : 모델 검증 보고서
8. 시스템 구현(Developing)
가. 설계 및 구현
모델링 결과를 시스템으로 구현하기 위해서는 모델링 태스크에서 작성된 알고리즘 설명서와 데이터 시각화보고서를 이용하여 시스템 및 데이터 아키텍쳐 설계, 사용자 인터페이스 설계를 진행한다. 가동 중인 시스템에 적용하기 위해서는 운영 시스템에 대한 분석도 수행한다.
시스템 설계서를 바탕으로 BI(Business Intelligence)패키지를 활용하거나 새롭게 프로그램 코딩을 통하여 시스템을 구축한다.
1) 시스템 분석 및 설계
가동중인 시스템을 분석하고알고리즘 설명서에 근거하여 응용시스템(Applicatioin)구축 설계 프로세스를 진행한다. 시스템 분석과설계는 사용중인 정보시스템 개발방법론을 커스터마이징하여 적용할 수 있다.
- 입력자료 : 알고리즘 설명서, 운영중인 시스템 설계서
- 프로세스 및 도구 : 정보시스템 개발방법론
- 출력자료 : 시스템 분석 및 설계서
2) 시스템 구현
시스템 분석 및 설계서에 따라 BI 패키지를 활용하거나 새롭게 시스템을 구축하거나 가동중인 운영시스템의 커스터마이징(Customizing) 등을 통하여 설계된 모델을 구현한다.
- 입력자료 : 시스템 분석 및 설계서, 알고리즘 설명서
- 프로세스 및 도구 : 시스템 통합개발도구(IDE), 프로그램 언어, 패키지
- 출력자료 : 구현 시스템
나. 시스템 테스트 및 운영
시스템에 구현된 모델은 테스트를 통하여 가동중인 시스템에 적용하고 효울적인 운영을 위한 프로세스를 진행한다.
1) 시스템 테스트
구축된 시스템의 검증(Verification & Validation)을 위하여 단위 테스트, 통합테스트, 시스템 테스트 등을 실시한다. 시스템 테스트는 품질관리 차원에서 진행함으로써 적용된 시스템의 객관성과 완전성을 확보한다.
- 입력자료 : 구현 시스템, 시스템 테스트 계획서
- 프로세스 및 도구 : 품질관리 활용
- 출력자료 : 시스템 테스트 결과보고서
2) 시스템 운영 계획
구현된 시스템을 지속적으로활용하기 위하여 시스템 운영자, 사용자를 대상으로 필요한 교육을 실시하고 시스템 운영계획을 수립한다.
- 입력자료 : 시스템 분석 및 설계서, 구현 시스템
- 처리 및 도구 : 운영계획 수립, 운영자 및 사용자 교육
- 출력자료 : 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서
9. 평가 및 전개(Deploying)
가. 모델 발전 계획 수립
업무 특성 및 운영 데이터의 품질에 따라 모델 성능은 많은 영향을 받게되고 이를 개선하는 노력이 주기적으로진행되어야 한다. 모델의 생명 주기(Life Cycle)를 설정하고 주기적인 평가를 실시하여 모델을 유지보수 하거나 재구축하기 위한 방안을 마련한다. 모델의 이러한 특성을 고려하여 모델 업데이트를 자동화하는 방안을 수립하여 적용할 수도 있다.
1) 모델 발전 계획
개발된 모델의 지속적인 운영과 기능 향상을 위한 발전계획을 상세하게 수립하여 모델의 계속성을 확보해야 한다.
- 입력자료 : 구현 시스템, 프로젝트 산추물
- 프로세스 및 도구 : 모델 발전 계획 수립
- 출력자료 : 모델 바리전 계획서
나. 프로젝트 평가 및 보고
분석 기획 단계에서 설정된 기준에 따라 프로젝트의 성과를 정량적, 정성적으로 평가하고 프로젝트 진행고정에서 산출된 지식, 프로세스, 출력자료를 지식자산화하고 프로젝트 최종 보고서를 작성한 후 의사소통계획에 따라 보고함으로써 프로젝트를 종료한다.
1) 프로젝트 성과 평가
프로젝트의 정량적 성과와 정성적 성과로 나누어 성과 평가서를 작성한다.
- 입력자료 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서
- 프로세스 및 도구 : 프로젝트 평가 기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가
- 출력자료 : 프로젝트 성과 평가서
2) 프로젝트 종료
프로젝트 진행과정의 모든 산출물 및 프롷세스를 지식자산화 하고 최종 보고서를 작성하여 의사소통 절차에 따라 보고하고 프로젝트를 종료한다.
- 입렺자료 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트성과 평가서
- 프로세스 및 도구 : 프로젝트 지식자산화 작업, 프로젝트 종료
- 출력자료 : 프로젝트 최종 보고서
2017년 12월 30일 토요일
제1절 분석 기획 방향성 도출
분석 기획이란 실제 분석을 수행하기에 앞서 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
1. 분석 기획의 특징
데이터 분석, 특히 빅데이터에 대한 분석을 수행하는데 있어서 주의할 사항
데이터를 다루는 영역의 특성 때문에, it 기술 및 분석 기법에 치우치는 경향
분석은 분석의 대상(what) 및 분석의 방법(How)에 따라서 그림과 같이 4가지로 나누어진다.
분석의 대상이 무언인지를 인지하고 있는 경우(Known), 즉 해결해야 할 문제를 알고 있고 이미 분석의 방법도 알고 있는 경우 1) 개선을 통한 최적화(Optimization)의 형태로 분석이 수행
방법을 모르는 경우에는 해당 분석 주제에 대한 2) 솔루션(Solution)을 찾아내는 방식으로 수행
분석의 대상이 명확하게 무엇인지 모르는 경우(Un-known)에는, 기존 분석 방식을 활용하여 새로운 지식인 3) 통찰(Insight)을 도출해냄으로써 문제의 도출 및 해결에 기여
4) 발견(Discovery) 접근법으로 분석의 대상 자체를 새롭게 도출
특정한 분석 주제를 대상으로 진행할 경우에도, 분석 주제 및 기법의 특성상 이러한 4가지의 유형을 넘나들면서 분서글 수행하고 결과를 도축하는 과정을 반복하게 된다. 문제및 방법을 인지하고 있는 "개선을 통한 최적화" 유형의 분석 주제로 만제를 잡근했지만, 새로운 유형의 주제를 "발견"하거나, 새로운 "솔루션"을 도출하게 되는 경우가 자주 발생한다.
또한, 목표 시점 별로는 당면한 과제를 빠르게 해결하는 "과제 중심적인 접근 방식" 과 지속적인 분석 내재화를 위한 "장기적인 마스터 플랜 방식"으로 나누어 볼 수 있다. 과제 단위로는 진행되는 프로젝트는 문제에 대한 명확한 해결을 위해서 Quick-Win 방식의 데이터 분석을 수행하는 것이 특징이다. 개별 과제의 경우에는 이러한 Quick-Win 방식으로 과제를 수행해도 무방하지만 지속적으로 데이터 붆석 문화를 내재화하기 위해서는 전사적이고 장기적인 관점에서 분석 과제를 도출하고 해당 과제를 수행하는 것이 바람직하다.
문제 해결(Problem Solving)을 위한 단기적인 접근방시과 분석과제정의(Problem Definition)를 위한 중장기적인 마스터플랜 접근 방식은 융향적으로 적용하는 것이 분석기획에서는 중요하다. 마스터픞랜을 수립하고 장기적인 관점에서 접근하는 것이 가장 바람직하지만, 분석의 가치를 증명하고 이해관계자들의 동읟를 구하기 위해서는 분석을 통해서 해결할 수 있는 해묵은 과제를 빠르게 해결해서 분석의 가치를 조기체험함으로써 공감대를 확산시키는 방식도 유용하다.
의미있는 분석을 하기 위해서는 분석 기술, IT 및 프로그래밍, 분석 주제에 대한 도메인 전문성, 의사소통이 중요하고분석 대상 및 방식에 따른 다양한 분석 주제를 과제 단위 혹은 마스터 플랜 단위로 도출할 수 있어야 한다. 분석가는 3가지의 기본 역량에 더하여 프로젝트 관리(Project Management)역량, 리더쉽(Leadership) 역량 등이 필요
2. 분석 기획 시 고려사항
1) 가용한 데이터
2) 적절한 유스케이스
3) 분석과제 수행
첫째, 분석의 기본이 되는 데이터에 대한 고려가 필요, 분석을 위한 데이터의 확보가 우선 필요적이며 데이터가 존재하는 경우에도 데이터의 유형에 따라서 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 한다.
둘째, 분석을 통해서 가치가 창출될 수 있는 적절한 활용 방안과 활용 가능한 유스케이스 타색이 필요.
"바뀌를 재 발명하지 마라"는 결언처럼 기존에 잘 구현되어서 활용되고 있는 유사 분석 시나리오 및 솔루션이 있다면 이를 최대한 활용하는 것이 중요하다. 이러한 시나리오를 토대로 소통할 때 분석 결과를 활용할 사용자의 측면에서 공감대를 얻고 원활한 분석 수행에 도움이 될 것이다.
끝으로 분석을 수행암에 있어서 발생하는 장애요소들에 대한 사전 계획 수립이 필요하다. 정확도를 올리기 위해서는 기간과 투입 리소스가 늘어나게 되는데 이것은 비용 상승으로 이어질 수 있으므로 많은 고려가 필요하다. 좋은 분석 결과를 도출하여도 분석가만 이해할 수 있는 형태의 결과가 아닌 사용자가 쉽게 이해하고 활용할 수 있도록 방안을 수립해야 한다. 그리고 부석 수행 시에는 문제 없이 실행되던 분석 결과가 실제 환경에서는 성능에 문제가 발생할 수 있으므로 이러한 부분에 대해서도 고려가 필요하다. 또한 이회성 분석으로 그치지 않고 조직의 역량으로 내재화하기위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리(Change Management)가 고려되어야 한다.
2017년 12월 28일 목요일
8 옵셔널
- 옵셔널 타입
nil이 될 수도 있는 인스턴스는 반드시 옵셔널 타입으로 선언
옵셔널 타입으로 선언되지 않은 인스턴스는 nil이 되지 못한다.
- 옵셔널 바인딩
어떤 옵셔널에 값이 있는지 판단할 수 있는 유용한 패턴
if let temporaryConstant = anOptional{
// temporaryConstant로 어떤 일을 한다
} else {
// anOptional에는 값이 없다. 즉, anOptional은 nil이다.
}
import Cocoa
var errorCodeString: String?
errorCodeString = "404"
if let theError = errorCodeString {
print(theError)
}
- 암묵적으로 언래핑된 옵셔널(implicitly unwrapped)
import Cocoa
var errorCodeStrig: String!
errorCodeString = "404"
print(errorCodeString)
여기서 옵셔널은 암묵적 언래핑을 나타내는 !가 붙어 선언되었다. 그리고 암묵적으로언래핑핀 오셔널을 사용한다는 것은 옵셔널을 명시적으로 언래핑하여 사용하는 것보다 훨씬 더 강한 확신, 즉 값이 있다는 확신의 방증이므로 조건문도 과감하게 없앴다.
- 옵셔널 체이닝(optional chaining)
옵셔널 바인딩처럼 어떤 옵셔널에 값이 있는지 판단
import Cocoa
var errorCodeString : String?
errorCodeString = "404"
var errorDescription: String?
if let theError = errorCodeString, let errorCodeInteger = Int(theError), errorCodeInteger == 404 {
errorDescription = "\(errorCodeInteger + 290): resource was not found."
}
var upCaseErrorDescription = errorDescription?.uppercased()
errorDescription
- 옵셔널을 준비된 상태로 수정하기
새 변수나 상수를 만들지 않아도 되도록 옵셔널을 준비된 상태(in place)로 수정할 수도 있다. 다음처럼 upCaseErrorDescription에 append(_:) 메소드를 호출한다.
...
upCaseErrorDescription?.append( "PLEASE TRY AGAIN.")
upCaseErrorDescription
옵셔널에 값이 있을 때는 텍스트를 추가만 하면되고, 값이 없다면 할 일도 없는 것이다.
- nil 결합 연산자
옵셔널을 처리할 때는 (옵셔널에 값이 있을 때) 값을 가져오거나 옵셔널이 nil일때 기본값을 사용하는 것이 일반적이다. 이를테면 errorDescription에 담긴 오류 정보를 가져올 때 문자열에 오류가 없다면 "No error"라는 기본값을 사용할 수 있다. 이때 필요한 것이 옵셔널 바인딩이다.
let description : String
if let errorEscription = errorDescription{
description = errorDescription
} else {
description = "No error"
}
nil 결합 연산자 사용하기
let description = errorDescription ?? "No error"
??의 왼쪽에는 옵셔널이 와야한다.왼쪽 옵셔널이 nil이면 ??는 오른쪽 값을 리턴한다. 왼쪽 옵셔널이 nil이 아니면 옵셔널에 포함된 값이 리턴된다.
nil이 될 수도 있는 인스턴스는 반드시 옵셔널 타입으로 선언
옵셔널 타입으로 선언되지 않은 인스턴스는 nil이 되지 못한다.
- 옵셔널 바인딩
어떤 옵셔널에 값이 있는지 판단할 수 있는 유용한 패턴
if let temporaryConstant = anOptional{
// temporaryConstant로 어떤 일을 한다
} else {
// anOptional에는 값이 없다. 즉, anOptional은 nil이다.
}
import Cocoa
var errorCodeString: String?
errorCodeString = "404"
if let theError = errorCodeString {
print(theError)
}
- 암묵적으로 언래핑된 옵셔널(implicitly unwrapped)
import Cocoa
var errorCodeStrig: String!
errorCodeString = "404"
print(errorCodeString)
여기서 옵셔널은 암묵적 언래핑을 나타내는 !가 붙어 선언되었다. 그리고 암묵적으로언래핑핀 오셔널을 사용한다는 것은 옵셔널을 명시적으로 언래핑하여 사용하는 것보다 훨씬 더 강한 확신, 즉 값이 있다는 확신의 방증이므로 조건문도 과감하게 없앴다.
- 옵셔널 체이닝(optional chaining)
옵셔널 바인딩처럼 어떤 옵셔널에 값이 있는지 판단
import Cocoa
var errorCodeString : String?
errorCodeString = "404"
var errorDescription: String?
if let theError = errorCodeString, let errorCodeInteger = Int(theError), errorCodeInteger == 404 {
errorDescription = "\(errorCodeInteger + 290): resource was not found."
}
var upCaseErrorDescription = errorDescription?.uppercased()
errorDescription
- 옵셔널을 준비된 상태로 수정하기
새 변수나 상수를 만들지 않아도 되도록 옵셔널을 준비된 상태(in place)로 수정할 수도 있다. 다음처럼 upCaseErrorDescription에 append(_:) 메소드를 호출한다.
...
upCaseErrorDescription?.append( "PLEASE TRY AGAIN.")
upCaseErrorDescription
옵셔널에 값이 있을 때는 텍스트를 추가만 하면되고, 값이 없다면 할 일도 없는 것이다.
- nil 결합 연산자
옵셔널을 처리할 때는 (옵셔널에 값이 있을 때) 값을 가져오거나 옵셔널이 nil일때 기본값을 사용하는 것이 일반적이다. 이를테면 errorDescription에 담긴 오류 정보를 가져올 때 문자열에 오류가 없다면 "No error"라는 기본값을 사용할 수 있다. 이때 필요한 것이 옵셔널 바인딩이다.
let description : String
if let errorEscription = errorDescription{
description = errorDescription
} else {
description = "No error"
}
nil 결합 연산자 사용하기
let description = errorDescription ?? "No error"
??의 왼쪽에는 옵셔널이 와야한다.왼쪽 옵셔널이 nil이면 ??는 오른쪽 값을 리턴한다. 왼쪽 옵셔널이 nil이 아니면 옵셔널에 포함된 값이 리턴된다.
2017년 12월 26일 화요일
6. 루프
- for-in 루프
import Cocoa
var myFirstInt : Int =0
for i in 1...5 {
myFirstInt += 1
myFirstInt
print(myFirstInt)
}
루프를 작성하겠다고 알리는 키워드가 for다. 그 뒤로 이터레이터 i가 선언되었는데, 루프의 현재 반복 횟수를 나타내는 이터레이터(iterator)는 루프 안에서 일정한 값을 보이며, 루프 안에서만 존재한다.
- where
for i in 1...100 where i % 3 == 0 {
print(i)
}
타입 추론
for i in 1...5 {
myFirstInt += 1
print("myFirstInt equals \(myFirstInt) at iteration \(i)")
}
- while 루프
var i = 1
whle i < 6 {
myFirstInt += 1
print(myFirstInt)
i += 1
}
- repeat-while 루프
repeat-while 루프는 루프를 적어도 한 번 실행하고 조건을 판단한다.
repeat{
print("Fire blasters!")
} while shields > 0
제어권 전달문, 다시 보기
continue 사용하기
....
var shields = 5
var blastersOverheating = false
var blasterFireCount = 0
var spaceDemonsDestroyed = 0
while shields > 0 {
if spaceDemonsDestoyed == 500 {
print("You beat the game!")
break
}
if blastersOverheating {
print("Blasters are overheated! Cooldown initiated.")
sleeep(5)
print("Blasters ready to fire")
sleep(1)
blastersOVerheating = false
blasterFireCount = 0
}
if blasterFireCount > 100 {
blastersOverheating = true
continue
}
print("Fire blasters!")
blasterFireCount += 1
spaceDemonsDestroyed += 1
}
import Cocoa
var myFirstInt : Int =0
for i in 1...5 {
myFirstInt += 1
myFirstInt
print(myFirstInt)
}
루프를 작성하겠다고 알리는 키워드가 for다. 그 뒤로 이터레이터 i가 선언되었는데, 루프의 현재 반복 횟수를 나타내는 이터레이터(iterator)는 루프 안에서 일정한 값을 보이며, 루프 안에서만 존재한다.
- where
for i in 1...100 where i % 3 == 0 {
print(i)
}
타입 추론
for i in 1...5 {
myFirstInt += 1
print("myFirstInt equals \(myFirstInt) at iteration \(i)")
}
- while 루프
var i = 1
whle i < 6 {
myFirstInt += 1
print(myFirstInt)
i += 1
}
- repeat-while 루프
repeat-while 루프는 루프를 적어도 한 번 실행하고 조건을 판단한다.
repeat{
print("Fire blasters!")
} while shields > 0
제어권 전달문, 다시 보기
continue 사용하기
....
var shields = 5
var blastersOverheating = false
var blasterFireCount = 0
var spaceDemonsDestroyed = 0
while shields > 0 {
if spaceDemonsDestoyed == 500 {
print("You beat the game!")
break
}
if blastersOverheating {
print("Blasters are overheated! Cooldown initiated.")
sleeep(5)
print("Blasters ready to fire")
sleep(1)
blastersOVerheating = false
blasterFireCount = 0
}
if blasterFireCount > 100 {
blastersOverheating = true
continue
}
print("Fire blasters!")
blasterFireCount += 1
spaceDemonsDestroyed += 1
}
피드 구독하기:
글 (Atom)