데이터 마트란 데이터의 한 부분으로서 특정 사용자가 관심을 갖는 데이터들을 담은 비교적 작은 규모의 데이터 웨어하우스이다. 즉, 일반적인 데이터베이스 형태로 갖고 있는 다양한 정보를 사용자의 요구 항목에 따라 체계적으로 분석하여 기업의 경영 활동을 돕기 위한 시스템
데이터 마트는 전체적인 데이터 웨어하우스에 있는 일부 데이터를 가지고 특정 사용자를 대상으로 한다.
데이터 웨어하우스와 데이터 마트의 구분은 사용자의 기능 및 제공 범위를 기준으로 한다.
데이터 마트 개발에 대해 논하기에 앞서 데이터의 reshape에 대해서 간단하게 설명하고자 한다. 어떤 데이터는 여러 개층 또는 수준으로 그룹화를 시킬 수 있거나 다양한 관점에서 살펴볼 필요가 있다. 예를 들면 같은 데이터를 반복 측정한 경우 수집된 데이터를 관측하고자 하는 변수 기준으로 살펴볼 수도 있고 매 회의 반복을 기준으로 살펴볼 수도 있는 것과 같은 원리이다. 이런 방식의 데이터 탐색을 용일하게 수행하기 위해서는 데이터 셋에 대한 일종의 변형이 필요하다. 어떤 변형을 어떻게 수행해야 할 것인지 정확하게 정의 내리긴 어려울지 몰라도 분석에 임하는 사람들이라면 기존의 데이터 셋과는 다른 새로운 무언가가 필요하다고 직관적으로 느낄 것이다. resphape는 이와 같이 데이터 재정렬을 위한 기법의 하나이다. reshape와 비견될 수 있는 개념 중 하나는 밀집화(aggregation)인데 reshape보다는 밀집화가 우리에게 좀 더 친숙하고 쉽게 수행되고 있는 방법이다. 밀집화 기법을 이용하면 복잡한 데이터를 더 단순하고 사용하기 편리한 상태로 축소하거나 재정렬 할 수 있다. 가장 대표적으로 사용되는 밀집화 기법의 하나가 Excel의 Pivot Table 기능이다. 그러나 이런 밀집화 기법을 사용하면 데이터가 간단명료하게 표시되기는 하지만 기존 데이터가 가지고 있던 더 많은 정보들을 손실하게 된다. 이와 달리 reshape는 데이터 재정렬을 수행하되, 원래 데이터가 가지고 있는 모든 정보들을 그대로 유지한다는 것이 차이점이다. R에는 다양한 방식으로 reshape를 수행할 수 있는 명령어들이 여럿 존재하지만, 적재적소에 올바른 명령어를 사용하기에 어려움이 많았다. 'reshape' 패키지는 이러한 문제를 극복한 reshape방법의 하나로서 이 장에서는 데이터 마트 개발에 바로 이 'reshape'패키지를 이용해보고자 한다. 한편, 여기에서 설치한 reshape패키지는 R에 미리 내재되어 있는 명령문 reshape(Resahpe Grouped Data)와는 다르다는 것을 유념하길 바란다.
- reshape
reshape패키지는 단지 melt와 cast만을 사용하여 데이터를 재구성하거나 밀집화된 데이터를 유연하게 생성해준다. reshape는 기존 데이터 구조를 column-wise하게 전환하는데, 크게 melt와 cast 단계로 구분된다.
댓글 없음:
댓글 쓰기