데이터(Data)와 정보(Information), 지식(Knowledge)의 차이의 이해 와 데이터 시각화 연관성
- 데이터와 정보, 통찰의 차이
- 정보로 부터 지식으로서의 변환, 더 나아가 통찰까지
- 데이터의 수집, 처리, 조직화
- 데이터 시각화의 역사
- 시각화된 데이터가 어떻게 의사 결정에 도움이 되는가?
- 시각화의 구성
1) 데이터, 정보, 지식, 통찰
- 데이터
데이터는 디지털 형태를 가진, 별개으 ㅣ객관적 사실들, 여러 다른 방법으로 조직되고 배열될 수 있는 기본구성 요소로써, 비즈니스 과정에서 만나는 여러 문제 해결의 실마리가 될 수 있는 유용한 정보를 제공해 준다.
데이터는 매우 단순할 수도 크지 않을 수도 있고, 조직화되지 않을 수도 있다. 이런 개별적 데이터들은 그 자체로 의미를 가지지 못할 뿐만 아니라 더 중요한 데이터 간의 구조나 관계가 명시되지 않았기 때문에 의사 결정에 그대로 사용될 수 없다.
- 정보
정보는 비즈니스 문제를 해결하기 위한 목적으로 가공, 처리된 데이터이다. 데이터 간에 관계나 연관성을 부여함으로써 정보가될 수 있는데, 이런 연관성은 데이터에 문맥이나 배경을 부여함으로써 얻어질 수 있다. 데이터의 배경 정보는 데이터에 대한 질문에 답할 수 있게 하기 때문에 유용하다.
- 지식
지식은 인간이 정보를 이해하고조직화할 때 드러나게 되고, 의사 결정을 이끄는 데 사용된다. 지식은 데이터, 정보일 뿐만 아니라 경험을 통해 축적된 기술들도 포함하며 적절한 의사 결정을 내리는 능력, 그것을 실행하는 능력으로 이뤄진다.
지식의 필수적 구성요소인 '데이터의 연결'을 통해 각 정보 조각들 간의 상대적 중요성을 이해할 수 있게 된다. 과거의 결과와 비교함으로써, 패턴을 발견해 냄으로써 더 이상 문제를 처음부터 풀어낼 필요가 없게 된다.
지식은 점점 증가하는 방향으로 변하게 된다. 특히 정보가 재배열되거나 다시 조직화될 때, 혹은 연산 알고리즘이 변경되었을 때 변한다. 지식은 데이터로부터 추출된 과거 정보에의해 계산되는 알고리즘의 결과를 가림키는 화살곽 ㅏㅌ다. 지식 역시 그 결과들과 시각적으로 상화작용하며 얻어진다는 많은 예가 있다. 이렇게 지식은 과거에 기반한 반면에 통찰은 미래로 가는 길을 열어준다.
- 데이터 분석과 통찰
분석은 통찰을 이끌어 낼 수 있는 데이터들 간의관계를 결정짓는 수학적 알고리즘에 달려 있다. 통찰을 이해하기 위한 한 가지 간단한 방법은 유추를 고려하는 것이아. 데이터에 구조가 없거나 비즈니스와 잘 정렬되지 않았을 경우에, 유추는 데이터를 좀 더 구조적 형태로 바꿔주고 더욱 비즈니스 목ㄹ표와 가깝게 정렬되게 함으로써, 더 명확하고 깊이 이해할 수 있게 해준다. 통찰은 혁신적 결과를 가져주는 '유레카'의 순간이다. 한 가지 주의할 것은 분석과 비즈니스 인텔리전스를 혼동해선 안 된다. 분석은 예측 능력을 포함하는 데 반해 비즈니스 인텔리전스는 과거 데이터에 기반한 결과를 제공한다.
분석은 대개 데이터의 넓은 범위에 적용되며, 이런 이류로 내부적으로 혹은 외부적으로 데이터 협업이 매우 빈번하게 일어난다. 어떤 비즈니스 패러다임에서는 대규모의 데이터 셋 모음에서의 협업은 오로지 내부적으로 일어나다고 하지만 대부분의 경우 퍼즐을 갖추거나 각각의 점들을 연결하는 데에 있어 외부적 연결이 도움을 준다.ㅣ 가장 많이 사용되는 외부 데이터 소스 두 가지는 소셜 미ㅣㄷ어와 소비자 기반 데이터이다.
- 데이터의 변환
데이터는 다양한 카테고리가 있는데, 그 중에 과거 성능 데이터, 실험 데이터, 벤치마크 데이터가 있다. 과거 성능 데이터와 실험 데이터는 꽤 명백한 데이터인데 반해, 벤치마크 데이터는 두 개의 다른 항목이나 제품을 기준에 따라 측정, 비교해 얻은 데이터이다. 데이터가 정보로 변환돼 더 처리를 거치게 되면, 문제 해결에 사용된다.
- 데이터, 정보로의 변환
데이터에서 정보로의 변환은 수집, 처리, 조직화 과정을 포함하게 된다.
수집된 데이터는 어떤 처리와 조직화 과정을 필요로 하며, 그 결과 구조, 모델 혹은 패턴을 가지게 될 수도 있고, 그러지 않을 수도 있다. 그러나 최소한 이 과정을 통해 데이터에 관한 질문에 대한 답을 체계적으로 찾을 수 있다.
- 데이터 수집
데이터 수집은 시간이 걸리는 과정이다. 그래서 회사들은 데이터 수집을 자동화하기를 원한다. 그러나 사람이 직접 데이터를 수집하는 일이 아직까지는 일반적이다. 현대의 자동화 과정을 통한 데이터 수집은 센서와 같은 입력 장치들을 사용한다. 데이터 자동으로수집하는 또 다른 방법은 문서나 로그 파일을 스캔함으로써 가능하다. 웹 기반 방법을 통해 데이터베이스에 저장된 데이터를 수집하게 수종으로 처리하는 방식도 정보로 변환될 수 있다. 데이터베이스로 저장되는 웹 기반 방식을 통해 데이터가 수집되도록 처리하는 방식은 비로소 데이터가 정보로 변화하게 한다. 최근 웹 기반의 협업환경은 향상된 통신과 데이터 공유를 통해 혜택을 얻고 있다.
- 데이터 전처리
데이터 클리닝(data cleaning), 데이터 통합(data integration), 데이터 정리(data reduction), 데이터 변환(data transformation)과 같은 몇 가지 데이터 처리 기법이 있다.
데이터 클리닝은 데이터가 일관성을 가지도록 하고노이즈를 제거하기 위해 적용
데이터 통합은 다양한 출처로부터 얻어진 데이터들이 데이터 웨어하우스(data warehouse)와 같은 잘 알려진 일관적 서식을 갖도록 병합하고 결합나다. 데이터 정리는 병합, 종합 그리고 불필요한 특성들을 제거함으로써 데이터 크기를 줄일 수 있다. 데이터 변환은 적은 범위 안으로 데이터를 축소하기 위해 상둉될 수 있고, 이를 통해 데이터의 처리와 시각화에 있어 정확성과 효율성을 향상시킬 수 있다.
이상 검출(anomaly detection)은 수집된 데이터 중 예상되는 형태나 규칙 안에 속하지 않는 이상한 데이터들을 식별하는 것이다.
변칙은 아웃라이어(outliers)나 노이즈(noise)로 알려져 있다. 옐르 들어 신호 데이터에서 이상한 특정한 신호는 노이즈로 여겨지면, 거래 데이터에서는 사기성 거래가 아웃라이어가 된다. 정확한 데이터 수집은 데이터의 무결성(integrity)을 유지하기 위해 필수적이다. 변칙 데이터들의 부작용만큼, 이면적으로아웃라이어들은 매우 중요한데, 예를 덜어 특히 사기성 보험 청구의 경우에 매우 유용하다.
댓글 없음:
댓글 쓰기