페이지

2022년 7월 23일 토요일

3.3.1 주피터 노트북: 딥러닝 실험을 위한 최적의 방법

 주피너 노트북(Jupyter Notebook)은 딥러닝 실험, 특히 이 책의 예제 코드를 위한 최적의 방법입니다. 주피터 노트북은 데이터 과학과 머신 러닝 커뮤니티에서 폭넓게 사용됩니다. 노트북은 주피터 노트북 애필리케이션(https://jupyter.org)으로 만든 파일이며 웹 브라우저에서 작성할 수 있습니다. 작업 내용을 기술하기 위해 서식 있는 텍스트 포맷을 지원하며 파이썬 코드를 실행할 수 있는 기능도 있습니다. 노트북에서는 긴 코드를 작께 쪼개 독립적으로 실행할 수 있어 대화식으로 개발이 가능하고, 작업중에 무언가 잘못되었을 때 이전 코드를 모두 재 실행할 필요가 없습니다.

필수적이지는 않지만 케라스를 배울 때 주피터 노트북을 사용할 것을 권장합니다. 하지만 파이참(pyCharm)같은 IDE에서 코드를 실행하거나 독립된 파이썬 스크립트를 실행할 수도 있습니다. 이 책의 모든 코드 예제는 오픈소스 노트북 파일로 제공됩니다. 깃 허브 https://githjub.com/gilbutITbook/006975나 https://github.com/rickiepark/deep-learning-with-python-notebooks에서 내려 받을 수 있습니다.

3.3 딥러닝 컴퓨터 싯팅

 딥러닝 애플리케이션 개발을 시작하기 전에 먼저 컴퓨터를 셋팅해야 합니다. 아주 필수적이지는 않지만 최신 NVIDIA GPU에서 딥러닝 코드를 실행하는 것을 권장합니다. 특히 합성곱 신경망을 사용한 이미지 처리나 순환 신경망을 사용한 시퀀스 처리 같은 일부 애플리케이션을 CPU에서 실행하면 아주 빠른 멀티코어 CPU라도 매우 오래 걸립니다. 실제로 CPU에서 실행할 수 있는 애플리케이션일지라도 최신 GPU를 사용하면 보통 2배나 5배 또는 10배 정도 속도가 빨라집니다. 컴퓨터에 GPU카드를 설치하고 싶지 않다면 대안으로 AWS EC2 GPU인스턴스나 구글 클라우드 플랫폼을 고려해 볼 수 있습니다. 클라우드 GPU 인스턴스는 시간에 따라 비용이 과금되는 점을 유념하세요.

로컬 컴퓨터를 셋팅하는지 또는 클라우드를 사용하는지에 상관없이 유닉스(Unix) 운영체제를 사용하는 것이 좋습니다. 기술적으로 원도에서 케라스를 사용할 수 있지만(3개의 케라스 백엔드 모두 원도를 지원합니다) 권장하지는 않습니다. 부록 B에서는 우분투에서 설치하는 방법을 안내합니다. 원도 사용자라면 가장 간단하게 동일한 실행 환경을 준비하는 방법은 우분투로 듀얼 부트가 되도록 컴퓨터를 셋팅하는 것입니다. 조금 번거로울 수 있지만 우분투를 사용하면 장기적으로 시간이 절약되고 문제가 발생할 가능성이 적습니다.

케라스를 사용하려면 텐서플로 또는 CNTK또는 씨아노를 설치해야 합니다(또는 3개의 백엔드를 서로 바꾸어 가며 작업하려면 이들 모두를 설치합니다). 이 책에서는 텐서플로를 중점적으로 다루곻 씨아노에 대해서는 일부만 소개합니다. CNTK는 다루지 않습니다.


3.2.2 케라스를 사용한 개발: 빠르게 둘러보기

 이미 케라스 메델의 예로 MNIST 예제를 보았습니다. 전형적인 케라스 작업 흐름은 이 예제와 비슷합니다.

1) 입력 텐서와 타깃 텐서로 이루어진 훈련 데이터를 정의합니다.

2) 입력과 타깃을 매핑하는 층으로 이루어진 네트워크(또는 모델)를 정의 합니다.

3) 손실 함수, 옵티마이저, 모니터링하기 위한 측정 지표를 선택하여 학습 과정을 설정합니다.

4) 훈련 데이터에 대해 모델의 fit()메서드를 반복적으로 호출합니다.

모델을 정의하는 방법은 두 가지인데, Sequential 클래스(가장 자주 사용하는 구조인 층을 순서대로 쌓아 올리 네트워크입니다)또는 함수형 API(완전히 임의의 구조를 만들 수 있는 비순환 유향 그래프를 만듭니다)를 사용합니다.

Sequential 클래스를 사용하여 정의한 2개의 층으로 된 모델을 다시 보겠습니다(첫 번째 층에 입력 데이터의 크기가 전달된 점을 주목하세요).


    from keras import models

    from keras import layers

    model = models.Sequential()

    model.add(layers.Dense(32, activation='relu', input_shape=(784,)))

    model.add(layers.Dense(10, activation='softmax'))

같은 모델을 함수형 API를 사용하여 만들어 보겠습니다.

    input_tensor = layers.Input(shape=(784,))

    x = layers.Dense(32, activation='relu')(input_tensor)

    output_tensor = layers.Dense(10, activation='softmax')(x)

    model = model.Model(input_tensor, outputs=output_tensor)

함수형 API를 사용하면 모델이 처리할 데이터 텐서를 만들고 마치 함수처럼 이 텐서에 층을 적용합니다.

모델 구조가 정의된 후에는 Sequential모델을 사용했는지 함수형 API를 사용했는지는 상관 없습니다. 이후 단계는 동일합니다.

컴파일 단계에서 학습 과정이 설정 됩니다. 여기에서 모델이 사용할 옵티마이저와 손실 함수, 훈련하는 동안 모니터링하기 위해 필요한 측정 지표를 지정합니다. 다음이 하나의 손실 함수를 사용하는 가장 흔한 경우의 예입니다.

    from keras import optimizers

    model.compile(optimizer=optimizers.RMSorop(lr=0.01),

                        loss='mse',

                        metrics=['accuracy'])
마지막으로 입력 데이터의 넘파이 배열을 (그리고 이에 상응하는 타깃 데이터를)모델의 fit()메서드에 전달함으로써 학습 과정이 이루어집니다. 이는 사이킷런(Sckit-Learn)이나 몇몇 다른 머신러닝 라이브러리에서 하는 방식과 비슷합니다.

    model.fit(input_tensor, target_tensor, batch_size=128, epochs=10)

다음 몇 개의 장에서 여러 네트워크 구조가 각기 다른 문제에 어떻게 적용되는지, 어떻게 적합한 학습 설정을 선택하는지, 만족할 만한 결과를 얻기 위해 어떻게 모델을 수정하는지 설명하겠습니다. 3.4절, 3.5절, 3.6절에서 이진 분류, 다중 분류, 회귀에 대한 기초적인 세 가지 예를 살펴보겠습니다.

3.2.1 케라스, 텐서를로, 싸아노, CNTK

케라스는 딥러닝 모델을 만들기 위한 고수준의 구성 요소를 제공하는 모델 수준의 라이브러리입니다. 텐서 조작이나 미분 같은 저수준의 연산을 다루지 않습니다. 그 대신 케라스의 백엔트 엔진(backend engine)에서 제공하는 최적화되고 특화된 테서 라이브러리를 사용합니다. 케라스는 하나의 텐서 라이브러리에 국한하여 구현되어 있지 않고 모듈 구조로 구성되어 있습니다. 여러가지 백엔드 엔진이 케라스와 매끄럽게 연동됩니다. 현재는 텐서를로, 씨아노, 마이크로소프트 코그니티브 툴킷(Microsoft Cognitive Toolkit, CNTK) 3개를 백엔드 엔진으로 사용할 수 있습니다. 향후에는 더 많은 딥러닝 엔진을 케라스에 사용할 수 있을 것 입니다.

텐서플로, CNTK, 씨아노는 딥러닝을 위한 주요 플랫품 중 하나입니다. 씨아노(http://deeplearning.net/software/theano)는 몬트리올 대학 MILA 연구소에서 개발했고, 텐서플로(https://www.tensorflow.org)는 구글에서 개발했으면, CNTK(http://github.com/Microsoft/CNTK)는 마이크로 소프트에서 개발했습니다. 케라스로 작성한 모든 코드는 아무런 변경 없이 이런 백엔드 중 하나를 선택해서 실행시킬 수 있습니다. 개발하는 중간에 하나의 벡엔드가 특정 작업에 더 빠르다고 판단되면 언제든지 백엔드를 바꿀 수 있어 아주 유용합니다. 가장 널리 사용되고 확장성이 뛰어나며 사용 제품에 쓸 수 있기 때문에 대부분의 딥러닝 작업에 텐서플로 백엔드가 기본으로권장됩니다.

텐서플로(또는 씨아노나 CNTK)를 사용하기 때문에 케라스는 CPU와 GPU에서 모두 작동할 수 있습니다. CPU에서 실행될 때 텐서를로는 Eigen(http://eigen.tuxfamily.org)이라고 불리는 저수순 텐서 연산 라이브러리를 이용합니다. CPU에서 실행될 때 텐서를로는 Eigen(http://eigen.tuxfamily. org)이라고 부리는 저수준 텐서 연산 라이브러리를 이요합니다. GPU에서는 NVIDIA CUDA 심층 신경망 라이브러리(cuDNN) 라고 불리는 고도로 최적화된 딥러닝 연산 라이브러리를 이용합니다.

 

3.2 케라스 소개

 이 책에서는 코드 예제를 위해 케라스(https://keras.io)를 사용합니다. 케라스틑 거의 모든 종류의 딥러닝 모델을 간편하게 만들고 훈련시킬 수 있는 파이썬을 위한 딥러닝 프레임워크입니다. 첨음에 케라스는 신속하게 실험을 해야 하는 연구자들을 위해 개발되었습니다.

케라스의 특징은 다음과 같습니다.

1) 동일한 코드로 CPU와 GPU에서 실행할 수 있습니다.

2) 사용하기 쉬운 API를 가지고 있어 딥러닝 모델의 프로토타입을 빠르게 만들 수 있습니다.

3) (컴퓨터 비전을 위한)합성곱 신경망, (시퀀스 처리를 위한)순환 신경망을 지원하며 이 둘을 자유롭게 조합하여 사용할 수 있습니다.

4) 다중 입력이나 다중 출력 모델, 층의 공유, 모델 공유 등 어떤 네트워크 구조도 만들 수 있습니다. 이 말은 적대적 생성 신경망(Generative Adversrial Network, GAN)부터 뉴럴 튜링 머신(Neural Turing Machine)까지 케라스는 기본적으로 어떤 딥러닝 모델에도 적합하다는 뜻입니다.


케라스는 MIT라이선스를 따르므로 상업적인 프로젝트에도 자유롭게 사용할 수 있습니다(2018년 중반 현재) 파이썬 2.7에서 3.6까지의 어떤 버전과도 호환됩니다.

학술적인 연구원이나 스타트업과 대기업의 기술자에서 대학원생과 아마추어 연구자까지 20만명의 사람들이 케라스를 사용합니다. 구글, 넷플릭스(Netfilx),우버(Uber), 썬(CERN), 엘프(Yelp), 스퀘어(Square)그리고 다양한 분야의 스타트업 수백 개가 케라스를 사용합니다. 머신 러닝 경연 웹사이트인 캐글(Kaggle)에서도 케라스의 인기가 높습니다. 최근에 거의 모든 딥러닝 경연 대회의 우승자들이 케라스 모델을 사용하고 있습니다.


3.1.3 손실 함수와 옵티마이저: 학습 과정을 조절하는 열쇠

 네트워크 구조를 정의하고 나면 두 가지를 더 선택해야 합니다.

1) 손실 함수(loss function)(목적 함수(objective function)): 훈련하는 동안 최소화될 값입니다. 주어진 문제에 대한 성공 지표가 됩니다.

2) 옵티마이저(optimizer):손실 함수를 기반으로 네트워크가 어떻게 업데이트될지 결정합니다.

특정 종류의 확률적 경사 하강법(SGD)을 구현합니다.


여러 개의 출력을 내는 신경망은 여러 개의 손실 함수를 가질 수 있습니다(출력당 하나씩). 하지만 경사 하강법 과정은 하나의 스칼라 손실 값을 기준으로 합니다. 따라서 손실이 여러 개인 네트워크에서는 모든 손실이(평균을 내서) 하나의 스칼라 양으로 합쳐집니다.

문제에 맞는 올바른 목적 함수를 선택하는 것은 아주 중요합니다. 네트워크가 손실을 최소화하기 위해 편법을 사용할 수 있기 때문입니다. 목적 함수가 주어진 문제의 성곡과 전혀 관련이 없다면 원하지 않는 일을 수행하는 모델이 만들어질 것 입니다. "모든 인류의 평균 행복 지수를 최대화하기" 같은 잘못된 목적 함수에서 SGD로 훈련된 멍청하지만 전지전능한 AI가 있다고 가정하시다 이문제를 쉽게 해결하려고 이 AI가 몇 사람을 남기고 모든 인류를 죽여서 남은 사람들의 행복에 초점을 맞출지도 모릅니다. 왜냐하면 평균적인 행복은 얼마나 많은 사람이 남겨지 있는지와 상관없기 때문입니다. 이는 의도한 바가 아닐 것입니다! 우리가 만든 모든 신경망은 단지 손실 함수를 최소화하기만 한다는 것을 기억하세요. 목적 함수를 현명하게 선택하지 않으면 원하지 않는 부수효과가 발생할 것입니다.

다행히 분류, 회귀와 시퀀스 예측 같은 일반적인 문제에서는 올바른 손실 함수를 선택하는 것 간단한 지침이 있습니다. 예를 들어 2개의 클래스가 있는 분류 문제에는 이진 크로스앤트로피(binary crossentropy), 여러 개의 클래스가 있는 분류 문제에는 범주형 크로스엔트로피(categorical crossentropy), 회귀 문제에는 평균 제곱 오차, 시퀀스 학습 문제에는 CTS(Connection Temporal Classification) 등을 사용합니다. 완전히 새로운 연구를 할 때만 독자적인 목적 함수를 만들게 됩니다. 이어지는 장들에서 여러 분야의 통상적인 작업에 어떤 손실 함수를 선택하는지 자세히 설명합니다.

3.1.2 모델: 층의 네크워크

 딥러닝 모델은 층으로 만든 비순환 유형 그래프(Directed Acyclic Graph, DAG)입니다. 가장 일반적인 예가 하나의 입력을 하나의 출력으로 매핑하는 층을 순서대로 쌓는 것입니다.

앞으로 공부하다 보면 아주 다양한 네트워크 구조를 보게 될 것입니다. 자주 등장하는 것들은 다음과 같습니다.

1) 가지(branch)가 2개인 네트워크

2) 출력이 여러 개인 네트워크

3) 인셉션(Inception) 블럭

네트워크 구조는 가설공간(hypothesis space)을 정의합니다. 1장에서머신 러닝을 '가능성 있는 관을 사전에 저의하고 피드백 신호의 도움을 받아 입ㅂ력 데이터에 대한 유용한 변환을 찾는 것'으로 정의했는데 기억날지 모르겠습니다. 네트워크 구조를 선택함으로써 가능성 있는 공간(가설 공간)을 입력 데이터에서 출력 데이터로 매핑하는 일련의 특정 텐서 연산으로 제한하게 됩니다. 우리가 찾아야 할 것은 이런 텐서 연산에 프홈된 가중치 텐서의 좋은 값입니다.

딱 맞는 네트워크 구조를 찾아내는 것은 과학보다는 예술에 가깝습니다. 신뢰할 만한 모범적인 사례와 원칙이 있지만 연습을 해야만 적절한 신경망을 설계할 수 있는 기술을 갖추게 될 것입니다.

다음 몇 개의 장에서 신경망을 만드는 원리를 배우고 특정 문제에 적용 가능한 것과 그렇지 않은 것에 대한 직관을 길러 봅시다.