Limit(0)

2018년 1월 9일 화요일

1. 분석 화경의 이해

가. 통계 패키지 R
R은 통계 분석 과정에서 수행되는 복잡한 계산이나 시각화 기법을 쉽게 사용할 수 있도록 설계된 무료 소프트웨어이다. 통계학자나 데이터 분석 전문가들이 주로 사용하며 행렬 계산을 위한 도구로서도 사용될 수 있는데 이 경우 계산 성능 측면에서는 우수한 결과를 보여준다. R은 무료로 사용할 수 있는 오픈소스 소프트웨어라는 장점과 기본으로 제공되는 기능 외에도 사용자들이 직접 제작한 패키지를 이용하여 무수히 많은 기능들을 사용할 수 있도록 확장되는 점, 사용 소프트웨어나 출력물에 견주어도 뒤쳐지지 않는 정도의 강력한 시각화 요소를 갖추고 있다는 점을 무기로 최근 들어 그 인기가 점차 증가하고 있다.

나. R의 역사
R의 역사를 알기 위해서는 S라는 통계 프로그래밍 언어에 대한 이야기를 할 필요가 있다. 'S'는 1976년 AT&T의 Bell Labs Statistics Group에서 John Chamber, Rick Becker와 Allan Wilks가 "to turn ideas into software, quickly and faithfully."라는 목표로 자체 개발한 통계 프로그래밍 언어이다. 그 전까지 대부분의 통계 계산은 Fortran의 서브루틴을 통해 수행되었다. 1976년 최초 개발된 무명의 S는 "Statistical Computing System", "Statistical Analysis System"(그러나 이 이름은 지금의 "SAS System"이 이미 사용하고 있었다), "Interactive SCS" 등의 후보를 거쳐 'S'라는 이름으로 불리게 되었다.
이 'S'라는 이름은 Statistical computing의 머리글자이기도 했지만, 그 당시 같은 기관에서 설계하고 있던 또 다른 프로그래밍 언어와의 연관성을 강조하기 위해 한 글자의 알파벳으로 된 이름을 채택하고자 했기에 선택된 이름이기도 했다. 그 또 다른 프로그래밍 언어가 바로 C언어이다.
1988년 S의 문법 구조나 언어에 많은 변경이 있었으며 객체라는 개념이 도입되기 시작했다. "The New S Language"(Blue Book 출판)라는 책이 출간되어 함수에서 매크로까지 전반적인 기능들에 걸쳐 'New S' 에서 변경된 사항들을 소개했지만 사용자들이 이 'New S'로의 이주를 탐탁지 않게 생각했다. 많은 부분에 생겨난 변화 때문에 기존 사용자들이 사용하고 있던 대부분의 코드를 새로 작성해야 했기 때문이다. 그러던 중 R이 탄생한다.
R은 1993년 뉴질랜드 University of Auckland 에서 Ross Inaka와 Robert Gentleman에 의해 개발된 소프트웨어인데 'Scheme'이라는 언어로부터 렉시컬 스코드(정적 스코프)의 개념을 도입한 또 다른 S언어 프로그램이었다. 이 'R'이라는 이름은 두 개발자 Ross Inaka와 Robert Gentleman의 머리글자에서 따왔으며 S보다 한 단계 발전되었다는 의미에서 알파벳 S보다 앞선 R을 차용했다는 의미도 포함하고 있다. R이 발표되던 당시에도 S언어를 도입한 프로그램들은 계속 존재했었다. 1988년 TIBCO Software Inc. 에서 출시되어 계속 버전업을 거듭한 S-Plus라는 프로그램이 유명했고 최초의 S 역시도 S3, S4등의 후속 프로그램이 출시되었지만 이들은 모두 상용 프로그램이었다.
그런데 R이 처음 발표된지 2년째되던 해인 1995년, R은 자유 소프트웨어 재단(Free Software Foundation)의 GNU 일반 공중 사용 허가서 (GPL, GNU Public General License)로 인해 무료로 공개되었다. 또한 기존 프로그램을 사용하기 위해 대부분의 코드를 실행시킬 수 있었다. 이후로도 R은 대부분의 UNIX계열 플랫폼에 다채롭게 대응하도록 컴파일 되어 Windows는 물론 Linux나 Mac OS를 지원하며 저변을 넓혔다. 그리고 꾸준히 버젼업을 거듭하며 S4나 S-Plus를 체치고 현재는 S언어 기반 프로그램 중 가장 널리 사용되고 있으며 패키지를 통한 확장성 때문에 그 가능성 또한 높게 평가받고 있다. R은 사용자들이 직접 패키지를 계속 만들어서 새로운 기법들을 생성하고 있기 때문에 버전이 계속 갱신되고 있다.

다. R의 특징
R은 무료 소프트웨어이면서도 고차원적인 계산이 가능하며 통계 분석과 시각화에 최적화 된 환경을 통해 단순한 계산부터 복잡한 통계 기법까지 폭넓게 다룰 수 있다. R의 가장 강력한 특징들 몇 가지를 살펴보면 다음과 같다.

1) 그래픽 처리
R은 상용 소프트웨어에 버금가는 상당한 수준의 그래프와 그림을 그릴 수 있다. 기본적인 그래픽 관련 옵션들이 충실하게 갖춰져 있기 때문에 그림의 용도와 역할에 맞게 적절한 그래프를 언제든지 쉽게 생산할 수 있으며 매우 세부적인 부분까지 사용자가 직접 지정하여 섬세한 작업을 수행할 수 있다. 또한 출판물로 사용해도손색이 없을 정도의 고해상도 이미지를 생산함에도 그 처리 시간이 매우 빠르기 때문에 단순히 분석과정에서 뿐만 아니라 보고서 작성이나 발표 자료 작성 시에도 유용하게 사용할 수 있다.

2) 데이터 처리 및 계산 능력
R은 벡터(Vector), 행렬(Matrix), 배열(Array), 데이터 프레임(Data Frame), 리스트(List)등 다양한 형태의 데이터 구조를 지원하므로 다양한 형태의 분석에 대응하기 좋다. 또한 복잡한 구조 내의 개별 데이터에 접근하는 절차가 간단하므로 큰 데이터를 핸들링 하기도 간편하다.

3) 패키지
R에는 패키지라는 개념이 있어 사용자들이 스스로 개발하는 새로운 함수들을 패키지의 형태로 내려 받아 사용할 수 있다. 일반적으로 패키지는 하나의 목적을 가지고제작이 되는데 특정 분석 기법을 사용하기 위해 하나의 패키지를 설치하면 해당 분석에 필요한 과정들을 수행할 수 있는 함수가 패키지에 포함되어 있는 형식이다. 이러한 확장성 덕분에 다른 통계 프로그램에 비해 최신 이론이나 기법을 사용해보기가 더 쉽다. 연구자들이 자신의 기법을 패키지화 해서 올리기만 한다면 누구나 해당 패키지를 통해 그 기법을 사용해 볼 수 있기 때문이다. 또한 쉽게 사용할 수 없는 강력한 그래픽 처리를 원하는 경우에도 패키지의 형태를 적용하여 복잡하고 어려운 옵션이 적용된 고급 그래픽 기능들을 이요해 간편하게 처리할 수 있다.

라. R Studio
R Studio는 R을 사용하는 통합 개발 환경 (Integrated Development Environment; IDE)중의하나이다. IDE를 사용하면 R을 조금 더 간편하고확장된 기능을 가지는 환경에서 실행할 수 있다. 특히 R Studio는 메모리에 저장되어있는 변수의 정보에 바로 접근하여 변수 내에 저장된 값들을 살펴보거나 수정할 수 있으며 특별한 명령어 없이도 변수의 정보에 대해 바로 알 수 있다. 또한 스크립트를 관리하고 문서화하기가 수월해진다. R이 오픈 소스 프로그램이며 다양한 운영체제를 지원하는 것과 마찬가지로 R Studio 역시 무료로 사용할 수 있고 다양한 운영체제를 지원한다.

7. 분석 교육 및 변화관리

최근 구성원들에게 데이터 분석 교육을 받도록 독려하는 기업이 늘고 있다. 엔지니어가 입사하면 코드베이스나 개발 문화를 교육시키는 엔지니어 훈련(Engineering Bootcamp)프로그램을 운영하는 경우이다. 더 나아가 엔지니어뿐만 아니라 마케팅, 기획, 서비스, 관리 등 모든 부서의 구성원을 대상으로 데이터 분석 훈련 프로그램을 운영하기도 한다. 이런 배경에는 모든 구성원들이 직접 데이터를 보고, 분석하고 가설을 검증할 수 있는 능력을 갖춤으로써 데이터 활용을 통한 비즈니스 가치를 전사적으로 확대하기 위해서다.

예전에는 기업 내 데이터 분석가가 담당했던 일을 모든 구성원이 데이터를 분석하고 이를 바로 업무에 활용할 수 있도록 조직 전반에 분석 문화를 정착시키고 변화시키려는 시도로 볼 수 있다. 그림에서 보는 바와 같이 새로운 체계의 도입 시에는 저항 및 기존 형태로 되돌아가는 관성이 존재하기 때문에 분석의 가치를 극대화하고 내재화하는 안정적인 추진기로 접어들기 위해서는 분석에 관련된 교육 및 마인드 육성을 위한 적극적인 변화 관리가 필요하다.

빅데이터의 등장은 많은 비즈니스 영역에서 변화를 가져왔다. 이러한 변화에 보다 적극적으로 대응하기 위해서는 기업에 맞는 적합한 분석 업무를 도출하고 가치를 높여줄 수 있도록 분석 조직 및 인력에 대한 지속적인 교육과 훈련을 실시하여야 한다. 또한 경영층이 데이터에 기반 한 의사결정을 할 수 있는 기업문화를 정착시키려는 변화관리를 지속적으로 계획하고 수행하여야 한다.

분석 교육의 목표는 단순한 툴 교육이 아닌 분석 역량을 확보하고 강화하는 것에 초점을 맞추어 진행되어야 한다. 그림과 같이 분석 기획자에 대한 데이터 분석 큐레이션 교육, 분석 실무자에 대한 데이터 분석 기법 및 도구에 대한 교육, 업무 수행자에 대한 분석기회 발굴 및 시나리오 작성법 등 분석적인 사고를 업무에 적용할 수 있도록 다양한 교육을 통해 조직 구성원 모둥에게 분석기반의 업무를 정착시킬 수 있어야 한다. 이를 통해 데이터를 바라보는 관점, 데이터 분석과 활용 등이 기업문화로 자연스럽게 스며들게 확대 되어야 한다.

6. 분석 과제 관리 프로세스 수립

분석 마스터 플랜이 수립되고 초기 데이터 분석 과제가 성공적으로 수행되는 경우, 지속적인 분석 니즈 및 기회가 분석 과제 형태로 도출 될 수 있다. 이런 과정에서 분석 조직이 수행할 주요한 역할 중의 하나가 분석 과제의 기획 및 운영이므로 이를 체계적으로 관리하기 위한 프로세스를 수립해야 한다.

분석 과제 관리 프로세스는 크게 과제 발굴과 과제 수행 및 모니터링으로 나누어진다. 과제 발굴 단계에서는 개별 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석 과제 풀(Pool)로 관리하면서 분석 프로젝트를 선정하는 작업을 수행한다. 과제 수행 단계에서는 분석을 수행할 팀을 구성하고 분석 과제 실행 시 지속적인 모니터링과 과제 결과를 공유하고 개선하는 절차를 수행한다.

분석 조직이 지속적이고 체계적인 분석 과제 관리 프로세스를 수행함으로써 조직 내 분석 문화 내재화 및 경쟁력을 확보할 수 있다. 그리고 해당 과제를 진행하면서 만들어진 시사점(Lesson Learned)를 포함한 결과물을 풀(Pool)에 잘 축적하고 관리함으로써 향후 유사한 분석 과제 수행 시 시행착오를 최소화하고 프로젝트를 효율적으로 진행할 수 있다.

2018년 1월 8일 월요일

5. 데이터 조직 및 인력방안 수립

빅데이터의 등장에 따라 기업의 비즈니스도 많은 변화를 겪고 있다. 이러한 비즈니스 변화를 인식하고 기업의 차별된 경쟁력을 확보하는 수단으로데이터 과제 발굴, 기술 검토 및 전사 업무 적용 계획 수립 등 데이터를 효과적으로 분석.활용하기 위해 기획, 운영 및 관리를 전담할 수 있는 전문 분석 조직의 필요성이 제기되고있다.

현재 데이터와 관련된 기술적인 문제들은 어느 정도 발전되었다고볼 수 있다. 하지만 많은 기업이 실제 분석 전문가나 적절한 조직체계를 갖추고있지 않아 데이터 분석 및 활요 시 어려움에 봉착하는 경우가 많다. 특히 데이터에 대한 관심과 시각이 넓어지면서 분석 관점에서 컨트롤 타워의 필요성도 제기되고 있다. 이로인해 최근 국내 기업들에서도전담 조직으로서 '데이터 과학자(Data Scientist)'조직이 구성되고 있으며 조직의 장으로 C레벨 임원을 두는 것을 검토하는 기업도생겨나기 시작했다.

그림은 이러한 분석 조직의 목표와 역할, 조직 구성을 설명하고있다. 데이터 분석 조직은 기업의 경쟁력 확보를 위해 데이터 분석의 가치를 발견하고, 이를 활용하여 비즈니스를 최적화하는 목표를 갖고 구성되어야 한다. 이를 위해 기업의 업무 전반에 걸쳐 다양한 분석 과제를 발굴해 정의하고, 데이터 분석을 통해 의미 있는 인사이트를 찾아 실행하는 역할 을 수행할 수 있어야 한다. 다양한 분야의 지식과 경험을 가진 인력과 업무 담당자 등으로 구성된 전사 또는 부서 내 조직으로 구성할 수 있다.

분석 전문조직은 표와 같이 조직구조 및 인력 구성을 고려해 기업에 최적화 된 형태로 구성해야 한다.

데이터 분석을 위한 조직 구조는 다양한 형태로 살펴볼 수 있는데, 특히 분석업무 수행 주체에 따라 그림과 같이 3가지 유형의 조직구조로 살펴볼 수 있다.

첫 번째, '집중형 조직 구조'는 조직 내에 별도의 독립적인 분석 전담조직을 구성하고, 회사의 모든 분석업무를 전담 조직에서 담당한다. 분석 전담조직 내부에서 전사 분석 과제의 전략적인 중요도에 따라 우선순위를 정하여 추진할 수 있다. 한편 일부 현업 부서와 분석 업무가 중복 또는 이원화될 가능성이 있다.

두 번째, '기능 중심의 조직 구조'는 일반적으로 분석을 수행하는 형태이며, 별도로 분석 조직을 구성하지 않고 각 해당 업무부서에서 직접 분석하는 형태다. 이러한 특징으로 인해 전사적 관점에서 핵심 분석이 어려우며, 특정 업무 부서에 국한된 분석을 수행할 가능성이 높거나 일부 중복된 분석 업무를 수행할 수 있는 구조다.

세 번째, '분산된 조직구조'는 분석 조직의 인력들을 현업부서에 배치해 분석 업무를 수행하는 형태다. 전사 차원에서 분석 과제의 우선순위를 선정해 수행이 가능하며, 분석 결과를 신속하게 실무에 적용 할 수 있는 장점이 있다.

이렇듯 데이터 분석을 위한 다양한 형태의 분석 조직을 구성하여 운영할 수 있지만, 어떠한 조직구조가 적합한 형태라고 단정 지을 수 없다. 따라서 각 기업이 처한 환경과 특성을 고려하여 적절한 분석 조직을 구성해야 한다.

분석조직이 낮추어져 있다 하더라도 조직 구성원의 분석 역량이 하루아침에 성장하는 것도 아니고, 한 사람이 데이터 분석과 관련된 모든 역량을 다 갖추기는 현실적으로 어렵다. 따라서 전문 역량을 갖춘 각 분야의 인재들을 모아 조직을 구성하는 것이 바람직하다. 분석 조직을 효과적으로 구성하여 운영하기 위해서는 그름과 같이 비즈니스 이해를 위한 인력, 분석에 필요한 IT 기술을 이해하는 인력, 통계를 이용한 다양한 분석기법을 활용할 수 있는 분석 전문 인력, 조직 내 분석 문화 확산을 위한 변화 관리 인력, 분석 조직뿐 아니라 관련 부서 조직원의 분석 역량 향상을 위한 교육담당 인력 등을 다양하게 구성함으로써 분석 조직의 경쟁력을 극대화할 수 있다.

4. 데이터 거버넌스 체계 수립

빅데이터는 데이터의 크기(Volume)로 그 의미의 절대성을 갖는 것은 아니다. 그러나 실시간으로 쏟아지는 엄청난 양의 데이터와 정형화된 데이터를 넘어 비정형.반정형의 데이터는 조직이나 프로젝트 단위의 데이터 관리체계로는 그 해답을 찾을 수 없고 전사 차원의 체계적인 데이터 거버넌스(Data Governace)의 필요성을 부각시키고 있다.

그러나 아직 많은 기업에서 전사 차원의 데이터 관리체계를 갖추지 못하고 시스템별로 데이터를 관리함으로써 데이터 중복 및 비표준에 따른 정합성 오류와 데이터 활용 저하의 문제점을 갖고 있다. 따라서 빅데이터 프로젝트를 효과적으로 추진하거나 지속적인 효과를 얻기 위해서는 데이터 거버넌스 체계 수립이 중요하며 거버넌스가 없는 빅데이터의 적용은 단발성 효과에 그칠 수 있다.

데이터 거버넌스란 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크(Framework)및 저장소(Repository)를 구축하는 것을 말한다. 특히 마스터 데이터(Master Data), 메타 데이터(Meta Data), 데이터 사전(Data Dictionary)은 데이터 거버넌스의 중요한 관리 대상이다.

기업은 데이터 거버넌스 체계를 구축함으로써 데이터의 가용성, 유용성, 통합성, 보안성, 안전성을 확보할 수 있으며 이는 빅데이터 프로젝트를 성공으로 이끄는 기반이 된다. 데이터 거버넌스는 독자적으로 수행될 수도 있지만 전사 차원의 IT 거버넌스나 EA(Enterprise Architecture)의 구성요소로써 구추고디는 경우도있다.

빅데이터 거버넌스는이러한 데이터거버넌스의 체계에 더하여 빅데이터의 효율적인 관리, 다양한 데이터의관리체계, 데이터 최적화, 정보보호, 데이터 생명주기 관리, 데이터 카테고리별 관리 책임자(Data Steward)지정 등을 포함한다.

데이터 거버넌스의 구성요소인 원칙(Principle), 조직(Organization), 프로세스(Process)는 유기적인 조합을 통하여 데이터를 비즈니스 목적에 부합하고 최적의정보 서비스를 제공할 수 있도록 효과적으로 관리한다.

-원칙
데이터를 유지 관리하기 위한 지침과 가이드
보안, 품질기준, 변경관리

-조직
데이터를 관리할 조직의 역할과 책임
데이터 관리자, 데이터베이스 관리자, 데이터 아키텍트(Data Architect)

-프로세스
데이터 관리를 위한 활동과 체계
작업 절차, 모니터링 활동, 측정 활동

가. 데이터 표준화
데이터 표준화는 데이터 표준 용어 설정, 명명 규칙(Name Rule)수립, 메타 데이터(Meta Data) 구축, 데이터 사전(Data Dictionary)구축 등의 업무로 구성된다. 데이터 표준 용어는 표준 단어 사전, 표준 도메인 사전, 표준 코드 등으로 구성되며 사전 간 상호 검증이 가능하도록 점검 프로세스를 포함해야 한다.
명명 규칙은 필요시 언어별(한글, 영어 등 외국어)로 작성되어 매핑 상태를 유지해야 한다. 메타 데이터와 데이터 사전은 데이터의 데이터 구조 체계를 형성하는 것으로써 데이터 활용을 원활하게 하기 위한 데이터 구조 체계(Data Structure Architecture)나 메타 엔티티 관계 다이어그램(Meta Entity Relationship Diagram)을 제공한다.

나. 데이터 관리 체계
데이터 정합성 및 활용의 효율성을 위하여 표준 데이터를 포함한 메타 데이터(Meta Data)와 데이터 사전(Data Dictionary)의 관리 원칙을 수립한다. 수립된 원칙에 근거하여 항목별 상세한 프로세스를 만들고 관리와 운영을 위한 담당자 및 조직별 역할과 책임을 상세하게 준비한다.
빅데이터의 경우 데이터 양의 급증으로데이터의 생명 주기 관리방안(Data Life Cycle Management)을 수립하지 않으면 데이터 가용성 및 관리비용 증대 문제에 직면하게 될 수도 있다.

다. 데이터 저장소관리(Repository)
메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성한다. 저장소는 데이터 관리 체계 지원을 위한 워크플로우(Workflow)및 관리용 응용소프트웨어(Application)을 지원하고관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 한다. 또한 데이터 구조 변경에 따른 사전 영향 평가도 수행되어야 효율적인 활용이 가능하다.

라. 표준화 활동
데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로점검하고 모니터링을 실시한다. 또한 거버넌스의 조직 내 안정적 정착을 위한 계속적인 변화관리 및 주기적인 교육을 진행한다. 지속적인 데이터 표주노하 개선 활동을 통하여 실용성을 높여야 한다.

3. 분석 지원 인프라 방안 수립

분석 과제 단위별로 별도의 부석 시스템을 구축하는 경우, 관리의 복잡도 및 비용의 증대라는 부작용이 나타나게 된다. 따라서 분석 마스터 플랜을 기획하는 단계에서붜 장기적으로 안정적으로활용할 수 있는 확장성을 고려한 플랫폼 구조를 도입하는 것이 적절하다.

플랫폼이란 단순한 분석 응용프로그램뿐만 아니라 분석 서비스를 위한 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템을 의미하며 일반적으로 하드웨어에 탑재되어 테이터 분석에 필요한 프로그래밍환경에 실행 및 서비스 환경을 제공하는 역할을 수행한다. 이러한 분석 플랫폼이 구성되어 있는 경우에는 새로운 데이터 분석 니즈가 존재할 경우 개별적인 분석 시스템을 추가하는 방식이 아닌 서비스를 추가적으로 제공하는 방식으로 확장성을 높일 수 있다.

2. 데이터 분석 성숙도 모델 및 수준진단

이미 많은 기업에서 빅데이터는 화두가 되고 있으며 데이터를 어떻게 분석.활용하느냐가 기업의 경쟁력을 좌우하는 궁극적 요소로 인식되고 있다. 이러한 관점에서 기업들은 데이터 분석의 도입 여부와 활용에 대한 명확한 분석 수준을 점검할 필요가 있다. 데이터 분석의 수준 진단을 통해 데이터 분석 기반을 구현하기 위해 무엇을 준비하고 보완해야 하는지 등 분석의 유형 및 분석의 방향성을 결정할 수 있다.

데이터 분석 수준 진단은 그림의 프레임워크와 같이 6개 영역에서의 분석 준비도와 3개 영역에서의 분석 성숙돌르 함께 평가함으로서 수행될 수 있다.

분석을 위한 준비도 및 성숙도를 진단하는 궁극적인 목표는 각 기업이 수행하는 현재의 분석 수준을 명확히 이해하고, 수준진단 결과를 토대로 미래의 목표수준을 정의하는 데 있다.

수준진단을 통해 데이터 부석을 위한 기반 또는 환경이 유사업종 또는 타 경쟁사에 비해 어느 정도 수준이고 데이터를 활요한 분석의 경쟁력 확보를 위해 어떠한 영역에 선택과 집중을 해야 하는지, 어떤 관점을 보안해야하는지 등 개선 방안을 도출할 수 있다.

가. 분석 준비도
분석 준비도(Readiness)는 기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법으로서 그림과 같이 분석업무, 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라 등 총 6가지 영역을 대상으로 현 수준을 파악한다. 진단 영역별로 세부 항목에 대한 수준을 파악하고, 진단 결과 전체 요건 중 일정 수준 이상 충족하면 분석 업무를 도입하고, 충족하지 못하면 먼저 분석 환경을 조성한다.

그림의 예시에서 보는 바와 같이 금융업종을 대상으로 6개 영역에 대한 분석 준비도를 진단해본 결과, 보험업종의 분석 준비도가 상대적으로 높게 나타난 반면 증권업종의 분석 준비도는 타 금융업종에 비해 상대적으로 탖다. 이를 간략히 요약해 보면, 은행 및 보험업종은 분석업무를 착수하여 일정부분 성과를 기대할 수 있을 것으로 판단되며, 증권업종은 내부적인 분석환경을 조성하는 것이 우선되어야 한다고 볼 수 있다.

또한 진단 영역별로 살펴보면, 금융업 전반으로 인력.조직.분석 기법 등에 대한 준비도가 낮게 인식되고 있다. 이에 따라 분석 업무 수행을 위한 전문 인력 확보, 분석 역량 향상을 위한 교육 확대 및 변화관리가 필요하다고 볼 수 있다.

이렇듯 기업마다 분석 수행을 위한 현 수준은 어떠한지, 보다 효율적인 분석업무 수행을 위해 요구 또는 개선이 필요한 부분은 어디인지 데이터 분석 준비도를 진단해 보고 명확한 방향을 수립할 필요가 있다.

금융업종 전체의 분석 준비도 수준과 해당 기업의 분석 준비도 수준을 비교하여 상대적으로 수준이 낮은 영역을 파악해 볼 수 있다. 그림의 예시는 인력 및 조직, 분석 기법 등 조직의 분석 역량은 미흡한 수준인 반면, 조직의 분석 문화는 상대적으로 높은 수준임을 보여준다.

분석 준비 수준에 대한 6개 진단 영역별로 자세히 살펴보면, 분석 업무 준비도는 그림과 같이 4개 항목을 기준으로 진단을 수행한다. 전체 금융업종 평균과 비교해 볼 때, 분석업무에 대한 요건은 파악하고 있으나 분석업무에 대한 정기적인 개선은 미흡한 수준이다.

인력 및 조직 관점의 분석 준비도는 4개 항목 모두 매우 미흡한 수준으로 나타났다. 이는 향후 분석을 위한 전사 차원의 전문 분석 조직구성이 필요하며, 특히 관리자들의 기본적 분석 역량을 강화하기 위한 다양한 교육 프로그램 운영이 필요하다는 의미이다.

분석 기법 영역의 준비도수준은 3개 항목을 토대로 파악하였다. 분석 기법을 개선하거나 분석기법 라이브러리 관리체계는 매우 미흡한 수준이지만, 분석 업무별로 특화된 분석 기법은 일부 사용하고 있는 것을 알수 있다.

분석 데이터 준비도는 6개 항목을 기준으로 파악한다. 분석을 위한 데이터는 충분한 수준이며, 데이터 품질은 비교적 양호한 수준임을 알 수 있다. 하지만 다양한 외부 데이터의 활요 및 비구조 데이터 관리에 대한 준비는 상대적으로 미흡한 수준임을 알 수 있다.

분석 문화에 대한 준비도는 3개 항목을 중심으로 현 수준을 진단한다. 전반적으로 다른 진단 영역에 비해 분석 문화에 대한 준비도는 양호한 편임을 알 수 있다.

분석 인프라에 대한 준비도는 8개 항목을 대상으로 현재 분석 수준을 진단한다. 대규모 데이터 처리환경 및 분석을 위한 하드웨어, 데이터 품질 등은 양호한 수준임을 알 수 있다. 반면 데이터 및 고차원 분석 환경은 상대적으로 미흡한 수준이므로 이 부분에 대한 환경 개선 및 보완이 필요하다.

나. 분석 성숙도 모델
소프트웨어공학에서는 시스템 개발 업무능력과 조직의 성숙도(Maturity)를 파악하기 위해 CMMI(Capability Maturity Model Integration) 모델을 기반으로 조직의 성숙도를 평가한다. 또한 업무 프로세스 자체의 성숙도와 이러한 업무 프로세스 관리와 개선을 위한 조직의 역량을 CMMI에 기반한 업무 프로세스 성숙도 모형으로평가한다. 이와 같은 맥락에서 빅데이터 시대에는 분석 능력 및 분석 결과 활용에 대한 조직의 성숙도 수준을 평가해 현재 상태를 점검해 볼 필요가 있다.

기업에서 분석 수준은 성숙 단계에 다라 점차 진화하며 산업 및 기업의 특성에 따라 각 성숙 단계의 내용은 약간 상이할 수 있다. 분석 성숙도 진단은 비즈니스 부분, 조직.역량 부문, IT부문 등 3개 부분을 대상으로 성숙도 수준에 따라 도입단계, 활용단계, 확산단계, 최적화단계로 구분해 살펴볼 수 있다.

그림과 같이 금융업종의 분석 성숙도 수준 진단 결과, 금융업은 전체적으로 도입 단계를 넘어 활용 단계로 진입했음을 알 수 있다. 업종별로는 카드 및 보험업종에 비해 증권업종이 상대적으로 낮은 성숙도를 보이고 있으며, 비즈니스보다 IT 부문에 대한 성숙도 수준이 낮은 것을 알 수 있다.

그림은 A 기업의 분석 성숙돌르 측정한 결과다. 전반적으로 분석의 성숙도가 낮은 수준으로도입 단계에 다소 못 미치는 상황이며, 부문별로는 조직 및 역량 부문의 성숙도에 비해 분석 업무에 대한 IT지원이 미흡해 비즈니스 부문의 성숙도도 낮게 나타나고있다.

그림에서 보는 바와 같이 비즈니스 부분에 대한 성숙도 진단 결과를 살펴보면, 실적 및 통계 업무 중심으로 분석을 활요하고 있으며, 데이터를 정기적으로추출하여분석업무에 활용하고 있음을 알 수 있다. 반면 분석 업무의 자동 실행 및 분석 패턴 관리 등은 상대적으로 활용도가 떨어진다.

그림은 조직 및 역량 부분에 대한 성숙도 진단 결과다. 조직 내 일부 담당자의 지식과 경험에 의존해 분석하고 있으며, 일부 관리자들의 기본적인 데이터 분석이 가능함을 알 수 ㅣㅇㅆ다. 반면 분석 조직의 확보 및 운영, 분석 직무 운영은 상대적으로 미흡한 수준임을 고려할 때, 분석 조직의 구성방안을 고민해볼 필요가 있다.

IT 인프라 부문에 대한 성숙도는 그림 과 같이 분석을 위한 데이터 웨어하우스, 데이터 마트, OLAP 환경 등 전통적인 분석체계는 갖추어진 것으로 보인다. 하지만 고급분석(Advanced Ananlytics)등을 위한 환경은 매우 미흡한 수준임을 알 수 있다. 따라서 보다 효과적인 분석을 위해 고급분석 환경 구현을 위한 추가 개선활동이 요구된다.

다. 분석 수준 진단 결과
해당 기업의 분석 준비도와 성숙도 진달 결과를 토대로 그림 과 같이 기업의 현재 분석 수준을 객관적으로 파악 할 수 있다. 이를 토대로 유곤 업종 또는 경쟁사의 분석 수준과 비교하여 분석 경쟁력 확보 및 강화를 위한 목표 수준을 설정할 수 있다.

그림와 같이 분석 관점에서 4가지 유형으로 분석 수준진단 결과를 구분하여 향후 고려해야 하는 데이터 분석 수준에 대한 목표 바향을 정의하고, 유형별 특성에 따라 개선방안을 수립한다.
첫째, '준비형'은 데이터 분석을 위한 낮은 준비도와 낮은 성숙도 수준에 있는 기업들이다. 해당 위치의 기업들은 분석을 위한 데이터, 조직 및 인력, 분석 업무, 분석 기법 등이 적용되지 않음으로 인해 사전 준비가 필요한 유형이라고 할 수 있다.
둘째, '정착형'은 준비도는 낮은 편이지만 조직, 인력, 분석업무, 분석 기법 등을 기업 내부에서 제한적으로 사용하고 있다. 우선적으로 분석의 정착이 필요한 기업이 이 유형에 속한다.
셋째, '도입형'은 기업에서 활요하는 분석업무 및 분석기법 등은 부족한 상태지만, 조직 및 인력 등 준비도가 높은 유형으로 바로 데이터 분석을 바로 도입할 수 있는 기업이 여기에 속한다.
넷째, '확산형'은 데이터 분석을 위해 기업에 필요한 6가지 분석 구성요소를 모두 갖추고 있으며, 현재 부분적으로 도입해 지속적인 확산이 가능한 기업이 이 유형에 속한다.