페이지

2022년 7월 26일 화요일

4. 머신러닝의 기본 요소

3장에서 3개의 실용적인 옐르 다루었습니다. 이제 신경망을 사용하여 분류와 회귀 문제에 어떻게 접근하는지 익숙해지기 시3작했을 것입니다. 머신 러닝에서 아주 중요한 문제인 과대적합도 직접 보았습니다. 이 장에서는 딥러닝 문제에 도전하고 해결하기 위해 새롭게 얻은 직관을 확고한 개념으로 정립하겠습니다. 모델 평가, 데이터 전처리, 특성 공학, 과대적합 문제 같은 이런 모든 개념을 머신 러닝 문제를 해결하기 위한 7단계 작업 흐름으로 자세하게 정리하겠습니다.

3.7 요약

 1) 이제 벡터 데이터를 사용하여 가장 일반적인 머신 러닝인 이진 분류, 다중 분류, 스칼라 회귀 작업을 다룰 수 있습니다. 이 장의 '정리'절에서 이런 종류의 작업을 통해 배울 중요한 사항들을 정리해 놓았습니다.

2) 보통 원본 데이터를 신경망에 주입하기 전에 전처리해야 합니다.

3) 데ㅐ이터에 범위가 다른 특성이 있다면 전처리 단계에서 각 특성을 독립적으로 스케일 조정해야 합니다.

4) 훈련이 진행됨에 따라 신경마의 과대 적합이 시작되고 새로운 데이터에 대해 나쁜 결과를 얻게 됩니다.

5) 훈련 데이터가 많지 않으면 과대적합을 피하기 위해 1개 또는 2개의 은닉 층을 가진 신경망을 사용합니다.

6) 데이터가 많은 범주로 나뉘어 있을 때 중간층이 너무 작으면 정보의 병목이 생길 수 있습니다.

7) 회귀는 분류와 다른 손실 함수와 평가 지표를 사용합니다.

8) 작은 데이터를 사용할 때는 K-검증이 신뢰할 수 있는 모델 평가를 도와줍니다.

3.6.5 정리

 다음은 이 예제에서 배운 것들입니다.

1) 회귀는 분류에서 사용했던 것과는 다른 손실 함수를 사용합니다. 평균 제곱 오차(MSE)는 회귀에서 자주 사용되는 손실 함수입니다.

2) 비슷하게 회귀에서 사용되는 평가 지표는 분류와 다릅니다. 당연히 정화도 개념은 회귀에 적용되지 않습니다. 일반적인 회귀 지표는 평균 절대 오차(MAE)입니다.

3) 입력 데이터의 특성이 서로 다른 범위를 가지면 전처리 단계에서 각 특성을 개별적으로 스케일 조정해야 합니다.

4) 가용한 데이터가 적다면 K-겹 검증을 사용하는 것이 신뢰할 수 있는 모델 평가 방법입니다.

5) 가용한 훈련 데이터가 적다면 과대적합을 피하기 위해 은닉 층의 수를 줄인 모델이 좋습니다(일반적으로 1개 또는 2개)(

3.6.4 K-겹 검증을 사용한 훈련 검증

 (훈련에 사용할 에프크의 수 같은) 매개변수들을 조정하면서 모델을 평가하기 위해 이전 예제에서 했던 것처럼 데이터를 훈련 세트와 검증 세트로 나눕니다. 데이터 포인트가 많지 않기 때문에 검증 세트도 매우 작아집니다(약 100개의 샘플). 결국 검증 세트와 훈련 세트로 어떤 데이터 포인트가 선택되었는지에 따라 검증 점수가 크게 달라집니다. 검증 세트의 분할에 대한 검증 점수의 분산이 높습니다. 이렇게 되면 신뢰 있는 모델 평가를 할 수 없습니다.

이런 상황에서 가장 좋은 방법은 K-겹 교차 검증(K-flod cross-validation)을 사용하는 것입니다. 데이터를 K개의 분할(즉 폴드(fold))로 나누고(일반적으로 K = 4 또는 5), K개의 모델을 각각 만들어 K - 1개의 분할에서 훈련하고 나머지 분할에서 평가하는 방법입니다. 모델의 검증 점수는 K개의 검증 점수 평균이 됩니다. 코드로 보면 이해하기 쉽습니다.    

    import numpy as np

    num_val_samples = len(train_data) // k

    num_epochs = 100

    all_scores = []

    for i in range(k):

        print('처리중인 폴드 #', ㅑ)

        val_data = train_Data[i * num_val_samples: (i +1) * num_val_samples]

        ..... 검증 데이터 준비 k번째 분할

        val_targets = train_targets[ i * num_val_samples: (i + 1) * num_val_samples]

    

        partial_train_data = np.concatenate( .....  훈련 데이터 준비:다른 분할 전체

            [train_data[:i * num_val_samples],

                train_data[(i +1) * num_val_samples:]],

            axis = 0)

        partial_train_targets = np.concatenate(

            [train_targets[:i * num_val_samples],

                train_targets[(i +1) * num_val_samples:]],

            axis = 0)

        model = build_model() ..........케라스 모델 구성(컴파일 포함)

        model.fit(partial_Train_Data, partial_train_target, 

                        .....모델 훈련(verbose=0이므로 훈련 과정이 출력되지 않습니다.)

                    epochs=num_epochs, batch_size=1, verbose=0)

        val_mse, val_mae = model.evaluate(val_data, val_targets, verbose=0)

            .......  검증 세트로 모델 평가

        all_scores.append(val_mae)

num_epochs = 100으로 실행하면 다음 결과를 얻습니다.

>>> all_scores

[2.0956787838794217m 2,220593797098292, 2.859968412040484, 2.4053704039111]

>>> np.mean(all_scores)

2.3953995083523267

검증 세트가 다르므로 확실히 검증 점수가 2.1에서 2.9까지 변화가 큽니다. 평균값(2.4)이 각각의 점수보다 훨씬 신뢰할 만합니다. 이것이 K-겹 교차 검증의 핵심입니다. 이 예에서는 평균적으로 2,400달러 정도가 납니다. 주택 가격의 범위가 1만 달러에서 5만 달러 사이인 것을 감안하면 비교적 큰 값입니다.

신경망을 조금 더 오래 500 에포크 동안 훈련해 보죠. 각 에포크마다 모델이 얼마나 개선되는지기록하기 위해 훈련 루프를 조금 수정해서 에포크의 검증 점수를 로그에 저장하겠습니다.

    num_epochs = 500

    all_mae_histories = []

    for i in range(k):

        print('처리중인 폴드 #', i)

        val_data = train_data[i * num_val_samples: (i +1) * num_val_samples] 

            ......... 검증 데이터 준비: k번째 분할

        val_targets = train_targets[i * num_val_samples: (i + 1) * num_val_samples]

        partial_train_Data = np.concatenate( ............ 훈련 데이터 준비: 다른 분할 전체

            [train_Data[:i * num_val_samples],

                train_data[(i +1) * num_val_samples:]],

            axis=0)

        partial_train_targets = np.concatenate(    

            [train_targets[:i * num_val_samples],

                train_targets[(i +1) * num_val_samples:]],

            axis=0)

        model = build_model() ............케라스 모델 구성(컴파일 푸함)

        history = model.fit(partial_train_Data, partial_train_targets, 

            ...... 모델 훈련(verbose=0이므로 훈련 과정이 출력되지 않습니다)

                        validation_data=(val_data, val_targets),

                        epochs=num_epochs, batch_size=1, verbose=0)

        mae_hostory = history.history['val_mean_absolute_error']

        all_mae_histories.append(mae_history)

그다음 모든 폴드에 대해 에포크의 MAE 점수 평균을 계산합니다.

    average_mae_history = [

        np.mean([x[i] for x in all_mae_histories]) for i in range(num_epochs)]

그래프로 나타내면 그림 3-12와 같습니다.

    import matplotlib.pyplot as plt

    plt.plot(range(1, len(average_mae_history) + 1), average_mae_hjistory)

    plt.xlabel('Epochs')

    plt.ylabel('Validation MAE')

    plt.show()

이 그래프는 범위가 크고 변동이 심하기 때뮤ㅜㄴ에 보기가 좀 어렵습니다. 다음과 같이 해 보죠.

1) 곡선의 다른 부분과 스케일이 많이 다른 첫 10개의 데이터 포인트를 제외시킵니다.

2) 부르더운 곡선을 얻기 위해 각 포인트를 이전 포인트의 지수 이동 평균(exponential moving average)으로 대체합니다.


    def smooth_curve(points, factor=0.9):

        smoothed_point=[]

        for point in points:

            if smoothed_points:

                previous = smoothed_points[-1]

                smoothed_points.append(previous *  factor + point * (1 - factor))

            else:

                smoothed_points.append(point)

        return smoothed_points

    smooth_mae_history = smooth_curve(average_mae_history[1-:])


    plt.plot(range(1, len(smooth_mae)history) + 1), smooth_mae_history)

    plt.xlabel('Epochs')

    plt.ylabel('Validation MAE')

    plt.show()

이 그래프를 보면 검증 MAE가 80번째 에포크 이후에 줄어드는 것이 멈추었습니다. 이 지점 이후로는 과대적합이 시작됩니다.

모델의 여러 매개변수에 대한 튜닝이 끝나면(에포크 수뿐만 아니라 은닉 층의 크기도 조절할 수 있습니다) 모든 훈련 데이터를 사용하고 최상의 매개변수로 최종 실전에 투입될 모델을 훈련시킵니다. 그다음 테스트 데이터로 성능을 확인합니다.

    model = build_model() ..............새롭게 컴파일된 모델을 얻습니다.

    model.fit(train_data, train_targets, ................. 전체 데이터로 훈련시킵니다.

                epochs=80, batch_size=16, verbose=0)

    test_mse_score, test_mae_score = model.evaluate(test_data, test_Targets)

최종 결과는 다음과 같습니다.

>>> test_mae_score

2.675027286305147

아직 2.675달러 정도 차이가 나네요

        

3.6.3 모델 구성

 샘플 개수가 적기 때문에 64개의 유닛을 가진 2개의 은닉 층으로 작은 네트워크를 구성하여 사용하겠습니다. 일반적으로 훈련 데이터의 개수가 적을수록 과대적합이 더 쉽게 일어나크로 작은 모델을 사용하는것이 과대적합을 피하는 한 방법입니다.

    from keras import models

    from keras import layers


    def build_model(): ..............  동일한 모델을 여러 번 생성할 것이므로 함수를 만들어 사용합니다.

        model = model.Sequential()

        model.add(layers.Dense(64, activation='relu',

                                    input_shape=(train_Data.shape[1],)))

        model.add(layers.Dense(64, activation='relu'))

        model.add(layers.Dense(1))

        model.compile(optimize='rmsprop', loss='mse', metrics=[;mae'])

        return model

이 네트워크의 마지막 층은 하나의 유ㅜ닛을 가지고 있고 활성화 함수가 없습니다(선형 층이라고 부릅니다). 이것이 전형적인 스칼라 회귀(하나의 연속적인 값을 예측하는 회귀)를 위한 구성입니다. 활성화 함수를 적용하면 출력 값의 범위를 제한하게 됩니다. 예를 들어 마지막 층에 sigmoid 활성화 함수를 적용하면 네트워크가 0과 1사이의 값을 예측하도록 학습될 것입니다. 여기서 마지막 층의 순순한 선형이므로 네트워크가 어떤 범위의 값이라도 예측하도록 자유롭게 학습됩니다.

이 모델은 mse손실 함수를 사용하여 컴파일합니다. 이 함수는 평균 제곱 오차(mean squared error)의 약어로 예측과 타깃 사이 거리의 재곱입니다. 회귀 문제에서 널리 사용되는 손실 함수입니다.

훈련하는 동안 모니터링을 위해 새로운 지표인 평균 절대 오차(Mean Absolute Error, MAE)를 측정합니다. 이는 예측과 타깃 사이 거리의 절댓값입니다. 옐르 들어 이 예제에서 MAE가 0.5면 예측이 평균적으로 500달러 정도 차이가 난다는 뜻입니다.

3.6.3 데이터 준비

 상이한 스케일을 가진 값을 신경망에 주입하면 문제가 됩니다. 네트워크가 이런 다양한 데이터에 자동으로 맞추려고 할 수 있지만 이는 확실히 학습을 더 어렵게 만듭니다. 이런 데이터를 다룰 때 대표적인 방법은 특성별로 정규화를 하는 것입니다. 입력 데이터에 있는 각 특성(입력 데이터 행렬의 열)에 대해서 특성의 평균을 빼고 표준 편차로 나눕니다. 특성의 중앙이 0 근처에 맞추어지고 표준 편차가 1이 됩니다. 넘파이를 사용하면 간단하게 할 수 있습니다.

    mean = train_data.mean(axis=0)

    train_data -= mean

    std = train_data.std(axis=0)

    train_data /= std

    

    test_data -= mean

    test_data /= std

테스트 데이터를 정규화할 때 사용한 값이 훈련 데이터에서 계산한 값임을 주목하세요. 머신러닝 작업 과정에서 절대로 테스트 데이터에서 계산한 어떤 값도 사용해서는 안됩니다. 데이터 정규화처럼 간단한 작업조차도 그렇습니다.

2022년 7월 25일 월요일

3.6.1 보스턴 주택 가격 데이터셋

 1970년 중반 보스턴 외곽 지역의 범죄율, 지방세율 등의 데이터가 주어졌을 때 주택 가격이 중간 값을 예측해 보겠습니다. 여기서 사용할 데이터셋은 이전 2개의 예제와 다릅니다. 데이터 포인트가 506개로 비교적 개수가 적고 404개는 훈련 샘플로, 102개는 테스트 샘플로 나눠어 있습니다. 입력 데이터에 있는 각 특성(feature)(예를 들어 범죄율)은 스케일이 서로 다릅니다. 어떤 값은 0과 1사이의 비율을 나타내고, 어떤 것은 1과 12 사이의 값을 가지거나 1과 100사이의 값을 가집니다.

    from keras.datasets import boston_housing

    

    (train_data, train_targets), (test_data, test_targets) = 

    boston_housing.load_data()

데이터를 살펴보겠습니다.

>>> train_data.shape

(404, 13)

>>> test_data.shape

(102, 13)

여기서 볼 수 있듯이 404개의 훈련 샘플과 102개의 테스트 샘플이 있고 모두 13개의 수치 특성이 있습니다. 이 특성들은 1인당 범죄율, 주택당 평균 방의 개수, 고속도로 접근성 등입니다.

타깃은 주택의 중간 가격으로 천 달러 단위입니다.

>>> train_targets

[ 15.2, 42.3, 50., ... 19.4, 19.4, 29.1]

이 가격은 일반적으로 1만 달러에서 5만 달러 사이입니다. 저렴하게 느껴질 텐데 1970년대 중반이라는 것을 기억하세요. 아직 인플레이션에 영향을 받지 않은 가격입니다.