페이지

2018년 1월 24일 수요일

2. 지도 학습

2.1 분류와 희귀
지도 학습에는 분류(classification)와 희귀(regression)가 있습니다.

분류는 미리 정의된, 가능성 있는 여러 클래스 레이블(class label)중 하나를 얘측
이진 분류(binary classification): 두 개의 클래스로 분류
한 클래스를 양성(positive)클래스, 다른 하나를 음성(negative)클래스

다중 분류(multiclass classification): 셋 이상의 클래스로 분류

희귀는 연속적인 숫자, 또는 프로그래밍 용어로 말하면 부동소수점수(수학 용어로는 실수)를 예측하는 것
ex)어떤 사람의 교육 수준, 나이, 주거지를 바탕으로 연간 소득을 예측하는 것

출력값에 연속성이 있는지 여부로 휘귀와 분류를 구분할 수 있습니다.
연속성이 있으면 희귀
연속성이 없으면 분류

2.2 일반화, 과대적합, 과소적합

지도 학습에서는 훈련 데이터로 학습한 모델이 훈련 데이터와 특성이 같다면 처음 보는 새로운 데이터가 주어져도 정확히 예측할 거라 기대합니다. 모델이 처음 보는 데이터에 대해 정확하게 예측할 수 이/ㅅ으면 이를 훈련 세트에서 테스트 세트로 일반화(generalization)되었다고 합니다. 그래서 모델을 만들 때는 가능한 정확하게 일반화되도록 해야 합니다.

보통 훈련 세트에 대해 정확히 예측하도록 모델을 구축합니다. 훈련 세트와 테스트 세트가 매우 비슷하다면 그 모델이 테스트 세트에서도 정확히 예측하리라 기대할 수 있습니다. 그러나 항상 그런 것만은 아닙니다. 예를 들어 아주 복잡한 모델을 만든다면 훈련 세트에만 정확한 모델이 되어버릴수 있습니다.

가상의 예를 만들어 설명해보겠습니다. 초보 데이터 과학자가 요트를 구매한 고객과 구매의사가 없는 고객그의 데이터를이용해 누가 요트를 살지 예측하려 합니다. 그래서 관심없는 고객들을 성가시게 하지 않고 실제 구매할 것 같은 고객에게만 홍보 메일을 보내는 것이 목표입니다.

알고리즘이 새로운 데이터도 잘 측정하는 방법은 테스트 세트로 평가해보는 것밖에 없습니다. 그러나 직관적으로 보더라도(아마 수학적으로 볼때도) 간단한 모델이 새로운 데이터에 더 잘 일반화 될것이라고 예상할 수 있습니다. 만약 "50세 이상인 사람은 보트를 사려고 한다"라는 규칙을 만들었다면 이 규칙은 모든 고객데이터를 만족시킬 뿐 아니라, 나이 외에 자녀 수나 혼인 상태를 추가한 규칙보다 더 신뢰할 수 있습니다. 그렇기 때문에 우리는 언제나 가장 간단한 모델을 찾으려고 합니다. 초보 데이터 과학자가 했던것 처럼 가진 정보를 모두 사용해서 너무 복잡한 모덱을 만드는 것을 과대적합(overfitting)이라고 합니다. 과대 적합은 모델이 훈련 세트의 각 샘플에 너무 가깝게 맞춰져서 새로운 데이터에 일반화되기 어려울 때 일어납니다. 반대로 모델이 너무 간단하면, 즉"집이 있는 사람은 모두 요트를 사려고 한다"와 같은 경우에는 데이터의 면면과 다양성을 잡아내지 못할 것이고 훈련 세트에도 잘 맞지 않을 것입니다. 너무 가단한 모델이 선택되는 것을 과소적합(underfitting)이라고 합니다.

모델을 복잡하게 할 수록 훈련 데이터에 대해서는 더 정확히 예측할  수 있습니다. 그러나 너무 복잡해지면 훈련 세트의 가가 데이터 포인트에 너무 민감해져 새로운 데이터에 잘 일반화되지 못합니다.

2.2.1 모델 복잡도와 데이터셋 크기의관계

모델의 복잡도는 훈련 데이터셋에 담긴 입력 데이터의다양성과관련이깊습니다. 데이터셋에 다양한 데이터 포인트가 많을수록 과대적합 없이 더 복잡한 모델을 만들 수 있습니다. 보통 데이터 포인트를 더 많이 모으는 것이 다양성을 키워주므로 큰 데이터셋은 더 복잡한 모델을 만들 수 있게 해줍니다. 그러나 같은 데이터 포인트를 중복하거나 매우 비슷한 데이터를 모으는 것은 도움이 되지 않습니다.

2.3 지도 학습 알고리즘

2.3.1 예제에 사용할 데이터 셋

2.3.2 k-최근접 이웃
k-NN(k-Nearest Neighbors)알고리즘은 가장 간단한 머신러닝 알고리즘, 훈련 데이터셋에서 가장 가까운 데이터 포인트, 즉 '최근접 이웃'을 찾습니다.

2.3.3 선형 모델

희귀의 선형 모델
희귀를 위한 선형 모델은 특성이 하나일 땐 직선, 두 개일 땐 평면이 되며, 더 높은 차원(특성이 더 많음)에서는 초평면(hyperplane)이 되는 희귀 모델의 특징을 가지고 있습니다.

선형 희귀(최소제곱법)
선형 희귀(linear regression) 또는 최소제곱법(OLS, ordinary least squares)은 가장 간단하고 오래된 희귀용 선형 알고리즘입니다. 선형 희귀는 예측과 훈련 세트에 있는 타깃 y 사이의 평균제곱오차(mean squared error)를 최소하하는 파라미터 w와 b를 찾습니다. 평균제곱오차는 예측값과 타깃값의 차이를 제곱하여 더한 후에 샘플의 개수로 나눈 것입니다. 선형 희귀는 매개변수가 없는 것이 장점이지만, 그래서 모델의 복잡도를 제어할 방법도 없습니다.








댓글 없음: