딥러닝이 이렇게 빠르게 확산된 주된 이유는 많은 문제에서 더 좋은 성능을 내고 있기 때문입니다. 하지만 그것뿐만이 아닙니다. 딥러닝은 머신 러닝에서 가장 중요한 단계인 특성 공학을 완전히 자동화하기 때문에 문제를 더 해결하기 쉽게 만들어 줍니다.
얕은 학습인 이전의 머신 러닝 기법은 입력 데이터를 고차원 비선형 투영(SVM)이나 결정 트리 같은 간단한 변환을 통해 하나 또는 2개의 연속된 표현 공간으로만 변환합니다. 하지만 복잡한 문제에 필요한 잘 정제된 표현은 일반적으로 이런 방식으로 얻지 못합니다. 이런 머신 러닝 방법들로 처리하기 용의하게 사람이 초기 입력 데이터를 여러 방식으로 변환해야 합니다. 즉 데이터의 좋은 표현을 수동으로 만들어야 합니다. 이를 특성 공학(feature engineering)이라고 합니다. 그에 반해 딥러닝은 이 단계를 완전히 자동화 합니다. 딥러닝을 사용하면 특성을 직접 찾는 대신 한 번에 모든 특성을 학습할 수 있습니다. 머신 러닝 작업 흐름을 매우 단순화시켜 주므로 고도의 다단계 작업과정을 하나의 간단한 엔드-투-엔드(end-to-end) 딥러닝 모델로 대체할 수 있습니다.
이슈의 핵심이 여러 개의 연속된 표현 층을 가지는 것이라면, 얕은 학습 방법도 딥러닝의 효과를 모사하기 위해 반복적으로 적용할 수 있지 않을까요? 실제로 얕은 학습 방법을 연속적으로 적용하면 각 층의 효과는 빠르게 줄어듭니다. 3개의 층을 가진 모델에서 최적의 첫 번째 표현 층은 하나의 층이나 2개의 층을 가진 모델에서 최적의 첫 번째 층과는 달라야 합니다. 딥러닝의 변환 능력은 모델이 모든 표현 층을 순차적이 아니라(즉 탐욕적(greedily)방법이 아니라) 동시에 공동으로 학습하게 만듭니다. 이런 공동 특성 학습 능력 덕택에 모델이 내부 특성 하나에 맞추어질 때무다 이에 의존하는 다른 모든 특성이 사람이 개입하지 않아도 자동으로 변화에 적용하게 됩니다. 모든 학습은 하나의 피드백 신오에 의해 시작됩니다. 즉 모델의 모든 변화는 최종 목표를 따라게게 됩니다. 이 방식은 모델을 많은 중간 영역(층)으로 나누어 복잡하고 추상화된 표현을 학습시킬 수 있기 때문에 얕은 학습 모델을 탐욕적으로 쌓은 것보다 훨씬 강력합니다. 여기에서 각 층은 이전 층에 의존하지 않는 단순한 변환을 수행합니다.
딥러닝이 데이터로부터 학습하는 방법에는 두 가지 중요한 특징이 있습니다. 층을 거치면서 점짐적으로 더 복잡한 표현이 만들어진다는 것과 이런 점전적인 중간 표현이 공동으로 학습된다는 사실입니다. 각 층은 사위 층과 하위 층의 표현이 변함에 따라서 함께 바뀝니다. 이 2개의 특징이 이전의 머신 러닝 접근 방법보다 딥러닝이 훨씬 성공하게 된 이유입니다.