1970년 중반 보스턴 외곽 지역의 범죄율, 지방세율 등의 데이터가 주어졌을 때 주택 가격이 중간 값을 예측해 보겠습니다. 여기서 사용할 데이터셋은 이전 2개의 예제와 다릅니다. 데이터 포인트가 506개로 비교적 개수가 적고 404개는 훈련 샘플로, 102개는 테스트 샘플로 나눠어 있습니다. 입력 데이터에 있는 각 특성(feature)(예를 들어 범죄율)은 스케일이 서로 다릅니다. 어떤 값은 0과 1사이의 비율을 나타내고, 어떤 것은 1과 12 사이의 값을 가지거나 1과 100사이의 값을 가집니다.
from keras.datasets import boston_housing
(train_data, train_targets), (test_data, test_targets) =
boston_housing.load_data()
데이터를 살펴보겠습니다.
>>> train_data.shape
(404, 13)
>>> test_data.shape
(102, 13)
여기서 볼 수 있듯이 404개의 훈련 샘플과 102개의 테스트 샘플이 있고 모두 13개의 수치 특성이 있습니다. 이 특성들은 1인당 범죄율, 주택당 평균 방의 개수, 고속도로 접근성 등입니다.
타깃은 주택의 중간 가격으로 천 달러 단위입니다.
>>> train_targets
[ 15.2, 42.3, 50., ... 19.4, 19.4, 29.1]
이 가격은 일반적으로 1만 달러에서 5만 달러 사이입니다. 저렴하게 느껴질 텐데 1970년대 중반이라는 것을 기억하세요. 아직 인플레이션에 영향을 받지 않은 가격입니다.