머신러닝을 배울 때는 인공적으로 만들어진 데이터셋이 아닌 셀제 데이터로 실험해보는 것이 가장 좋습니다. 다행이 여러 분야에 걸쳐 공개된 데이터셋이 아주 많습니다. 다음 데이터를 구하기 좋은 곳입니다.
- 유명한 공개 데이터 저장소
- UC 얼바인Irnine 머신러닝 저장소(http://archive.ics.uci.edu/ml/)
- 캐글Kaggle 데이터셋(http://kaggle.com/datasets)
- 아마존AWS데이터셋(http://aws.amazon.com/datasets)
- 메타 포털(공개 데이터 저장소가 나열되어 있습니다)
- http://dataportals.org/
- http://opendatamonitor.eu/
- http://quandl.com
- 인기 있는 공개 데이터 저장소가 나열되어 있는 다른 페이지
- 위키백과 머신러닝 데이터셋 목록(https://goo.gl/SJHN2K)
- Quora.com 질문(http://goo.gl/zDR78y)
- 데이터셋 서브레딧subreddit(http://www.reddit.com/r/datasets)
이 장에서는 StatLib 저장소에 있는 캘리포니아 주택 가격Califormia Housing Prices 데이터셋을 사용합니다. 이 데이터셋은 1990년 캘리포니아 인구조사 데이터를 기반으로 합니다. 최근 데이터는 아니지만 학습용으로 아주 좋기 때문에 최근데이터라고 생각하겠습니다. 교육목적으로 사용하기 위해 범주형 특성을 추가하고 몇 개 특성을 제외했습니다.
댓글 없음:
댓글 쓰기