페이지

2018년 7월 10일 화요일

2.1 실제 데이터로 작업하기

머신러닝을 배울 때는 인공적으로 만들어진 데이터셋이 아닌 셀제 데이터로 실험해보는 것이 가장 좋습니다. 다행이 여러 분야에 걸쳐 공개된 데이터셋이 아주 많습니다. 다음 데이터를 구하기 좋은 곳입니다.

- 유명한 공개 데이터 저장소
   - UC 얼바인Irnine 머신러닝 저장소(http://archive.ics.uci.edu/ml/)
   - 캐글Kaggle 데이터셋(http://kaggle.com/datasets)
   - 아마존AWS데이터셋(http://aws.amazon.com/datasets)

- 메타 포털(공개 데이터 저장소가 나열되어 있습니다)
   - http://dataportals.org/
   - http://opendatamonitor.eu/
   - http://quandl.com

- 인기 있는 공개 데이터 저장소가 나열되어 있는 다른 페이지
   - 위키백과 머신러닝 데이터셋 목록(https://goo.gl/SJHN2K)
   - Quora.com 질문(http://goo.gl/zDR78y)
   - 데이터셋 서브레딧subreddit(http://www.reddit.com/r/datasets)

이 장에서는 StatLib 저장소에 있는 캘리포니아 주택 가격Califormia Housing Prices 데이터셋을 사용합니다. 이 데이터셋은 1990년 캘리포니아 인구조사 데이터를 기반으로 합니다. 최근 데이터는 아니지만 학습용으로 아주 좋기 때문에 최근데이터라고 생각하겠습니다. 교육목적으로 사용하기 위해 범주형 특성을 추가하고 몇 개 특성을 제외했습니다.

댓글 없음: