페이지

2018년 6월 30일 토요일

1. 데이터 분석 과정

전형적인 데이터 분석 과정은 일반적인 과학적 발견의절차와 같다.
데이터 과학에서는 대답해야 할 질문과 적용해야 할 분석 방법에서 발견이 시작된다. 가장 단순한 형태의 분석 방법은 기술(descriptive) 통계로 데이터셋을 취합해 시각화한 형태로 표현한다. 주어진 샘플 데이터의 크기가 작고, 이것으로 더 큰 모수를 알고 싶다면 통계에 기반한 추정(inferential)이 적합하다. 예측(predictive)을 하고자 하는 분석가는 과거에서 배워 미래를 예측하낟. 인과(causal)분석은 서로에게 영향을 미치는 변수들을 식별한다. 마지막으로 역학(mechanistic)데이터 분석은 변수가 다른 변수에 정학히 어떤 여향ㅇ을 주는지 탐구한다.

여러분이 진행하는 분석은 퀄리티는 결국 얼마나 좋은 데이터를 사용하느냐에 달렸다. 무엇이 가장 이상적인 데이터셋일까? 이 이상적인 세계에서 어떤 데이터가 여러분의 질문에 답을 가졌을까? 하지만 현실에서는 이상적인 데이터셋이 존재하지 앟거나 구하기가 매우 어려울 수있다. 그렇다면 데이터가 많지 않거나 측정값이 적확하지 않은 데이터셋이더라도 원하는 목적을 이룰수 있을까?

다행이도 웹이나 데이터베이스에서 원천 데이터를 얻기는 그리 어렵지 않으며, 내려받기와 문자 해독을 지원하는 파이썬 코드가 널려 있다. 'UNIT 02. 데이터수집 파이프라인'에서 더 자세히 알아보자.

우리가 살고 있는 불완전한 세상에서 완전한 데이터란 없다. '더러운(dirty)'데이터에는 누락된 값, 이상치, 여러 '비정삭적인' 아이템이 들어 있다. 몇 가지 '더러운' 데이터의 예로 미래의 생년월일, 음수로 표현된 나이와 체중, noreply@처럼 사용할 수 없는 이메일 주소를 들 수 있다. 원천 데이터를 얻으면 다음 데이터 정제 도구와 여러분의 통계학적 지식을 활용해서 데이터셋을 정규화해야 한다.

데이터를 정제했다면 이제 기술 통계 분석과 탐색적 분석을 해보자. 이 단계에서는 결과물은 통상적으로 산포도(scatter plot),히스토그램, 통계학 요약이다. 이 과정을 거쳐 데이터셋에감을 잡아 후속 분석 방향을 정할 수 있다.특히 데이터셋을 구성하는 변수가 많다면 감을 잡는 과정은 반드시 필요하다.

그리고 이제 미래를 예측할 차례다. 데이터 모델을 적절하게 학습했다면 이를 사용해 과거를 배워 미래를 예측할 수 있다. 만든 모델과 그 예측 정확도를 평가해야 한다는 것을 잊지 말자!

지금부터는 통계학자와 프로그래머로서가 아니라 도메인 전문가로서 역할을 수행할 때다. 몇 가지 결과를 얻기는 했는데 이것이 정말 의미가 있을까? 바꿔 말하면 이 결과가 다른 사람의 관심을 끌거나 어떤 변화로 이어지는가? 이번에는 여러분이 지금까지 만든 결과물을 평가하는 사람이라고 차자. 무엇을 잘했고, 잘못했고, 기회가 주어지면 어떤 부분을 개선할 수 있을까? 다른 데이터를 사용하거나 다른 종류의 분석을 수행하거나 다른 질문을 하거나 다른 모델을 만드는 것이 나을까? 다른 누군가가 이러한 질문을 할 바에야 스스로가 먼저 하는 것이 더 낫다. 아직 프로젝트 맥락을 이해하고 있다면 이것의 답을 찾아보자.

마지막으로 어떻게, 왜 데이터를 처리했는지, 어떤 모델을 만들었는지, 어떤 결론과 예측이 가능한지 보고서를 만들어야 한다. 이 장 마지막인'UNIT 03. 보고서 구조'에서 더 자세히 알아보자.

여러분의 학습을 돕는 동반자로서 이 책은 특히 데이터 분석의 준비 단계에 초점을 마춘다. 준비 단계에서는 데이터를 수집.전처리.정리.분류하며, 다른 단계에 비해 정형화되어 있지 않아 다양한 창의적 접근이 가능하다. 예측 모델링을 생략하지는 않았다. 거기서 진짜 마법 같은 일이 일어나니까 말이다.) 결과 해석, 비판, 보고는 분석 주제에 따라 보통 다른 접근 방식을 취해야 한다.






댓글 없음: