페이지

2022년 7월 23일 토요일

3.5 뉴스 기사 분류: 다중 분류 문제

 이전 절에서 완전 연결된 신경망을 사용하여 벡터 입력을 어떻게 2개의 클래스로 분류하는지 보았습니다. 2개 이상의 클래스가 있을 때는 어떻게 해야 할까요?

이 절에서 로이터(Reuter)뉴스를 46개의 상호 배타적인 토픽으로 분류하는 신경망을 만들어 보겠습니다. 클래스가 많기 때문에 이 문제는 다중 분류(multiclass classification)의 예입니다. 각 데이터 포인트가 정확히 하나의 범주로 분류되기 때문에 좀 더 정확히 말하면 단일 레이블 다중 분류(single-label, multiclass classification)문제입니다. 각 데이터 포인트가 여러 개의 범주(예를 들어 토픽)에 속할 수 있다면 이것은 다중 레이블 다중 분류(multi-label, multiclass classification)문제가 됩니다.

3.4.7 정리

다음은 이 예제에서 배운 것들 입니다.

1) 원본 데이터를 신경망에 턴서로 주입하기 위해서는 꽤 많은 전처리가 필요합니다. 단어 시퀀스는 이진 벡터로 인코딩될 수 있고 다른 인코딩 방식도 있습니다.

2) relu 활성화 함수와 함께 Dense층을 쌓은 네트워크는 (감성 분류를 ㅍ초함하여) 여러 종류의 문제에 적용할 수 있어 앞으로 자주 사용하게 될 것입니다.

3) (출력 클래스가 2개인) 이진 분류 문제에서 네트워크는 하나의 유닛과 sigmoid 활성화 함수를 가진 Dense 층으로 끝나야 합니다. 이 신경망의 출력은 확률을 나타내는 0과 1 사이의 스칼라 값입니다.

4) 이진 분류 문제에서 이런 스칼라 시그모이드 출력에 대해 사용할 손실 함수는 binary_crossentropy입니다.

5) rmsprop 옵티마이전느 문제에 상관없이 일반적으로 충분히 좋은 선택입니다. 걱정할 거리가 하나 줄은 셈입니다.

6) 훈련 데이터에 대해 성능이 향사됨에 따라 신경망은 과대적합되기 시작하고 이전에 본적 없는 데이터에서는 결과가 점점 나빠지게 됩니다. 항상 훈련 세트 이외의 데이터에서 성능을 모니터링해야 합니다.

3.4.6 추가 실험

  다음 실험을 진행하면 여기에서 선택한 구조가 향상의 여지는 있지만 어느 정도 납득할 만한 수준이라는 것을 알게 될 것입니다.

1) 여기에서는 2개의 은닉 층을 사용했습니다. 1개 또는 3개의 은닉 층을 사용하고 검증과 테ㅐ스트 정확도에 어떤 영향을 미치는지 확인해 보세요.

2) 층의 은닉 유닛을 추가하거나 줄여보세요. 32개의 유닛, 64개의 유닛 등

3) binary_crossentropy 대신 mse 손실 함수를 사용해 보세요

4) relu 대신에 tanh활성화 함수(초창기 신경망에서 인기 있었던 함수입니다)를 사용해 보세요.

3.4.5 훈견된 모델로 새로운 데이터에 대해 예측하기

 모델을 훈련시킨 후에 이를 실전 환경에서 사용하고 싶을 것입니다. predict메서드를 사요ㅕㅇ해서 어떤 리뷰가 긍정일 확률을 예측할 수 있습니다.

>>> model.predict(x_test)

array([[0.98006207]

        [0.99758697]

        [0.99975556]

        .... ,

        [0.82167041]

        [0.02885115]

        [0.65371346]], dtype=float32)

여기처럼 이 모델은 어떤 샘플에 대해 확신을 가지고 있지만(0.99 또는 그 이상, 0.01 또는 그이 하)어떤 샘플에 대해서는 확신이 부족합니다(0.4, 0.6).


3.4.4 훈련 검증

 훈련하는 동안 처음 데이터에 대한 모델의 정확도를 측정하기 위해서는 원본 훈련 데이터에서 10,000의 샘플을 떼어 검증 세트를 만들어야 합니다.

    x_val = x_train[:10000]

    partial_x_train = x_train[10000:]

    y_val = y_train[:10000]

    partial_y_train = y_train[10000:]

이제 모델을 512개의 샘플씩 미니 배치를 만들어 20번의 에포크 동안 훈련시킵니다(x_train과 y_train 텐서에 있는 모든 샘플에 대해 20번 반복합니다). 동시에 따로 떼어 놓은 1만 개의 샘플에서 손실과 정확도를 측정할 것입니다. 이렇게 하려면 validation_data 매개변수에 검증 데이터를 전달해야 합니다.

    modle.compile(optimizer='rmsprop',

                        loss='binary_crossentropy',

                        metrics=['acc'])

    history = model.fit(partial_x_train,

                            partial_y_train,

                            epochs=20,

                            batch_size=512,

                            validation_data=(x_val, y_val))

CPU를 사용해도 에포크마다 2초가 걸리지 않습니다. 전체 훈련은 20초 이상 걸립니다. 에포크가 끝날 때마다 1만 갱의 검증 샘플 데이터에서 손실과 정확도를 계산하기 때문에 약간씩 지연됩니다.

model.fit() 메서드는 History 객첼르 반환합니다. 이 객체는 훈련하는 동안 발생한 모든 정보를 담고 있는 딕셔너리인 history 속성을 가지고 있습니다. 한번 확인해 보죠.

>>> history_dict = history.history

>>> history_dict_.keys()

[u'acc', u'loss', u'val_acc', u'val_loss']

이 딕션너리는 훈련과 검증하는 동안 모니터링할 측정 지표당 하나씩 모두 4개의 항목을 담고 있습니다. 이어지는 두 목록에서 맷플롯립을 사용하여 훈련과 검증 데이터에 대한 손실과 정확도를 그리겠습니다. 신경망의 무작위한 초기화 때문에 독자들의 결과와 조금 다를 수 있습니다.

    import matplotlib.pyplot as plt

    history_dict = history.history

    loss = history_dict['loss']

    val_loss = history_dict['val_loss']


    epochs = range(1, len(loss) + 1)


    plt.plot(epochs, loss, 'bo', label='Training loss' ) ........ 'bo'는 파란색 점을 의미합니다.

    plt.plot(epochs, val_loss, 'b', label='Validation loss') ..... 'b'는 파란색 실선을 의미합니다.

    plt.title('Training and validation loss')

    plt.xlabel('Epochs')

    plt.ylabel('Loss')

    plt.legend()

    

    plt.show()



    plt.clf() ..............그래프를 초기화 합니다.

    acc = history_dict['acc']

    val_acc = history_dict['val_acc']

    

    plt.plot(epochs, acc, 'bo', label='Training acc')

    plt.plot(epochs, val_acc, 'b', label='Validation acc')

    plt.title('Training and validation accuracy')
    plt.xlabel('Epochs')

    plt.ylabel('Accuracy')

    plt.legend()

    plt.show()

여기에서 볼 수 있듯이 훈련 손실이 에포크마다 감소하고 훈련 정확도는 에포크마다 증가합니다. 경사 하강법 최적화를 사용했을 때 반복마다 최소화되는 것이 손실이므로 개대했던 대로 입니다. 검증 손실과 정확도는 이와 같지 않습니다. 네 번째 에포크에서 그래프가 역전되는것 같습니다. 이것이 훈련 세트에서 잘 작동하는 모델이 처음 보는 데이터에서는 잘 작동하지 않을 수 있다고 앞서 언급한 경고의 한 사례입니다. 정확한 용어로 말하면 과대적합(overfitting) 되었다고 합니다. 두 번째 에포크 이후부터 훈련 데어터에 과도하게 최적화되어 훈련 데이터에 특화된 표현을 학습하므로 훈련 세트 이외의 데이터에는 일반화되지 못합니다.

이런 경우에 과대적합을 방지하기 위해서 세 번째 에포크 이후에 훈련을 중지할 수 있ㅅ브니다. 일반적으로 4장에서 보게 될 과대적합을 완화학는 다양한 종류의 기술을 사용할 수 있습니다.

처음부터 다시 새로운 신경망을 네 번의 에포크 동안만 훈련하고 다시 테스트 데이터에서 평가해 보겠습니다.


    model = model.Sequential()

    model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))

    model.add(layers.Dense(16, activation='relu'))

    model.add(layers.Dense(1, activation='sigmoid'))

    

    model.compile(optimizer='rmsprop',

                    loss='binary_crossentropy'

                    metrics=['accuracy'])

    model.fit(x_train, y_train, epochs=4, batch_size=512)

    results = model.evaluate(x_test, y_test)

최종 결과는 다음과 같습니다.

>>> results

[0.332315458699, 0.87348]

아주 단순한 방식으로도 87%의 정확도를 달성했습니다. 최고 수준의 깁법을 사용하면 95%에 가까운 성능을 얻을 수 있습니다.

    

3.4.3 신경망 모델 만들기

 입력 데이터가 벡터고 레이블은 스칼라(1 또는 0)입니다. 아마 앞으로 볼 수 있는 문제 중에서 가장 간단할 것입니다. 이런 문제에 잘 작동하는 네트워크 종류는 relu활성화 함수를 사용한 완전 연결 층(즉 Dense(16, activation='relu'))을 그냥 쌓은 것입니다.

Dense 층에 전달한 매개변수(16)은 은닉 유닛(hidden unit)의 개수입니다. 하나의 은닉 유닛은 층이 나타내는 표현 공간에서 하나의 차원이 됩니다. 2장에 relu 활성화 함수를 사용한 Dense층을 다음 텐서 연산을 연결하여 구현했습니다.

output = relu(dot(W, input)  + b)

16개의 은닉 유닛이 있다는 것을 가중치 행렬 W의 크기라 (input_dimension, 16)이라는 뜻입니다. 입력 데이터와 W를 점곱하면 입력 데이터가 16차원으로 표현된 공간으로 투영됩니다(그리고 편향 벡터 b를 더하고 relu 연산을 적용합니다). 표현 공간의 차원을 '신경망이 내재된 표현을 학습할 때 가질 수 있는 자유도'로 이해할 수 있습니다. 은닉 유닛을 늘리면(표현 공간을 더 고차원으로 만들면) 신경망이 더욱 복잡한 표현을 학습할 수 있지만 계산 비용이 커지고 원하지 않는 패턴을 학습할 수도 있습니다(훈련 데이터에서는 성능이 향상되지만 테스트 데이터에서는 그렇지 않은 패턴입니다.).

1) 얼마나 많은 츠을 사용할 것인가?

2) 각 츧에 얼마나 많은 은닉 유닛을 둘 것인가?

4장에서 이런 결정을 하는 데 도움이 되는 일반적인 원리를 배웁니다. 당분간은 필자를 믿고 선택한 다음 구조를 따라 주세요

1) 16;개의 은닉 유닛을 가진 2개의 은닛 층

2) 현재 리뷰의 감정을 스칼라 값의 예측으로 출력하는 세 번째 층

중간에 있는 은닉 층은 활성화 함수로  relu를 사용하고 마지막 층은 확률(0과 1사이의 점수로, 어떤 샘플의 타깃 '1'일 가능성이 높다는 것은 그 리뷰가 긍정일 가능성이 높다는 것을 의미합니다)을 출력하기 위해 시그모이드 활성화 함수를 사용합니다. relu는 음수를 0으로 만드는 함수입니다, 시그모이드는 임의의 값을 [0, 1]사이로 압축하므로 출력 값을 확률처럼 해석할 수 있습니다.

    from keras import models

    from keras import layers

    model = models.Sequential()

    model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))

    model.add(layers.Dense(16, activation='relu'))

    model.add(layers.Dense(1, activation='sigmoid'))

활성화 함수가 무엇인가요? 왜 필요한가요?

relu와 같은 활성화 함수(또는 non-linearity)라고도 부릅니다)가 없다면 Dense 층은 선형적인 연산인 점곱과 덧셈 2개로 구성됩니다.

output = dot(W, input) + b

그러므로 이 층은 입력에 대한 선형 변환(아핀 변환)만을 학습할 수 있습니다. 이 층의 가설 공간은 입력 데이터를 16차원의 공간으로 바꾸는 가능한 모든 선형 변환의 집합니다. 이런 가설 공간은 매우 제약이 많으며, 선형 층을 깊게 쌓아도 여전히 하나의 선형 연산이기 때문에 층을 여러 개로 구성하는 장점이 없습니다. 즉 층을 추가해도 가설공간이 확정되지 않습니다.

가설 공간을 풍부하게 만들어 층을 깊게 만드는 장점을 살리기 위해서는 비선형성 또는 활성화 함수를 추가해야 합니다. relu는 딥러닝에서 가장 인기 있는 활성화 함수입니다. 이름은 조금 이상하지만 prelu, elu등 비슷한 다른 함수들도 많습니다.


마지막으로 손실 함수와 옵티마이저를 선택해야 합니다. 이진 분류 문제고 신경망의 출력이 확률이기 때문에(네트워크의 끝에 시그모이드 활성화 함수를 사용한 하나의 유닛으로 된 층을 놓았습니다), binary_crossentropy 손실이 적합합니다. 이 함수가 유일한 선택은 아니고 mean_squared_error도 사용할 수 있습니다. 확률을 출력하는 모델을 사용할 때는 크로스 엔트로피가 최선의 선택입니다. 크로스엔트로피(Crossentropy)는 정보 이론(Information Theory) 분야에서 온 개념으로 확률 분포 간의 차이를 측정합니다. 여기에서는 원본 분포와 예측 분포 사이를 측정합니다.

다음은 rmsprop 옵티마이저와 binary_crossentropy손실 함수로 모델을 설정하는 단계입니다. 훈련하는 동안 정확도를 사용하여 모니터링하겠습니다.

    model.compile(optimizer='rmsprop',

                    loss='binary_crossentropy',

                    metrics=['accuracy'])

케라스에 rmsprop, binary_crossentropy, accuracy가 포함되어 있기 때문에 옵티마이저, 손실 함수, 측정 지표를 문자열로 지정하는 것이 가능합니다. 이따금 옵티마이저의 매개변수를 바꾸거나 자신만의 손실 함수, 측정 함수를 전달해야 할 경우가 있습니다. 전자의 경우에는 코드 3-5와 같이 옵티마이저 파이썬 클래슬르 사용해서 객체를 직접 만들어 optimizer 매개변수에 전달하면 됩니다. 후자의 경우는 코드 3-6과 같이 loss와 metrics 매개변수에 함수 객체를 전달하면 됩니다.

    from keras import optimizers

    model. compile(optimizer=optimizers.RMSprop(lr=0.001),

                                    loss='binary_crossentropy',

                                    metrics=['accuracy'])


    from keras import losses

    from keras import metrics

    model.compile(optimizer=optimizers.RMSprop(lr=0.001),

                                    loss = losses.binary_crossentropy,

                                    metrics=[metrics.binary_accuracy])


3.4.2 데이터 준비

 신경망에 숫자 리스트를 주입할 수는 없습니다. 리스트를 텐서로 바꾸는 두 가지 방법이 있습니다.

1) 같은 길이가 되도록 리스트에 패딩(padding)을 추가하고 (samples, sequence_length)크기의 정수 텐서로 변환합니다. 그다음 이 정수 테서를 다룰 수 있는 층을 신경망의 첫 번째 층으로 사용합니다(Embedding 층을 말하며, 나중에 자세히 다루겠습니다)

2) 리스트를 원-핫 인코딩(one-hot encoding)하여 0과 1의 벡터로 변환합니다. 예를 들어 시퀀스[3, 5]를 인텍스 3과 5의 위치는 1이고 그 외는 모두 0인 10,000차원의 벡터로 각각 변화합니다. 그 다음 부동 소수 벡터 데이터를 다룰 수 있는 Dense 층을 신경망의 첫 번째 층으로 사용합니다.

여기서는 두 번째 방식을 사용하고 이해를 돕기 위해 직접 데이터를 원-핫 벡터로 만들겠습니다.

    import numpy as np


    def vectorize_sequences(sequences, dimension=10000):

        results = np.zeros((len(sequences), dimension)) .... 크기가 (len(sequences), diemension)이고 모든 원소가 0인 행렬을 만듭니다.

        for i, sequence in enumerate(sequences):

            results[i, sequence] = 1. ....................... results(i)에서 특정 인덱스의 위치를 1로 만듭니다.

        return results


    x_train = vectorize_sequences(trin_data) ....... 훈련 데이터를 벡터로 변환합니다.

    x_test = vectorize_sequences(test_data) ........ 테스트 데이터를 벡터로 변환합니다.

이제 샘플은 다음과 같이 나타납니다.

>>> x_train[0]

array([0., 1., 1., ....., 0., 0., 0.])

레이블은 쉽게 벡터로 바꿀 수 있습니다.

    y_train = np.asarray(train_labels).astype('float32')

    y_test = np.asarray(test_labels).astype('float32')

이제 신경망에 주입할 데이터가 준비되었습니다.