Limit(0): 4.1.4 강화 학습

2022년 7월 28일 목요일

4.1.4 강화 학습

오랫동안 간과되었던 강화 학습(reainforcement learning)은 구글 딥마인드(DeepMind)가 아타리(Atri)게임 플레이를 학습하는 데 성공적으로 적용하면서 최근에 많은 관심을 받기 시작했습니다(그 이후 최고 수준의 바둑 실력을 학습했습니다). 강화 학습에서 에이전트(agent)는 환경에 대한 정보를 받아 보상을 최대화하는 행동을 선택하도록 학습됩니다. 옐르 들어 강화 학습으로 훈련된 신경망은 비디오 게임 화면을 입력으로 받고 게임 점수를 최대화하기 위한 게임 내의 행동을 축력할 수 있습니다.

현재 강화 학습은 대부분 연구 영역에 속해 있고 게임 이외에 실제적인 성공 사례는 아직 없습니다. 하지만 때가 되면 강화 학습이 실제 세상의 많은 애플리케이션을 대체할 것으로 기대하고 있습니다. 이런 애플리케이션에서 자율 주행 자동차, 자원 과리, 교육 등이 있습니다. 아마 그때가 왔거나 이제 곧 올 것입니다.

분류와 회귀에서 사용하는 용어

분류와 회귀에는 븍별한 용어가 많습니다. 이전 예제에서 일부 용어를 보았고 앞으로 어어지는 장들에서 더 많이 등장합니다. 이런 용어들은 머신 러닝에 특별화된 구체적인 정의를 가지므로 친숙해야 합니다.

1) 샘플 또는 입력: 모델에 주입될 하나의 데이터 포인트

2) 예측 또는 출력: 모델로부터 나오는 값

3) 타깃: 정답, 외부 데이터 소스에 근거하여 모델이 완벽하게 예측해야 하는 값

4) 예측 오차 또는 손실 값: 모델의 예측과 타깃 사이의 거리를 측정한 값

5) 클래스: 분류 문제에서 선택할 수 있는 가능한 레이블의 집합. 예를 들어 고양이와 강아지 사진을 분류할 때 클래스는 '고양이', '강아지' 2개 입니다.

6) 레이블: 분류 문제에서 클래스 할당의 구체적인 사례. 예를 들어 사진 #123에 '강아지'클래스가 들어 있다고 표시 한다면 '강아지'는 사진 #1234의 레이블이 됩니다.

7) 참 값(ground-truth)또는 꼬리표(annotation): 데이터셋에 대한 모든 타깃. 일반적으로 사람에 의해 수집됩니다.

8) 이진 분류: 각 입력 샘플이 2개의 배타적인 범주로 구분되는 분류 작업

9) 다중 분류: 각 입력 샘플이 2개 이상의 범주로 구분되는 분류 작업. 예를 들어 손글씨 숫자 분류를 말합니다.

10)다중 레이블 분류: 각 입력 샘플이 여러 개의 레이블에 할당될 수 있는 분류 작업. 예를 들어 하나의 이미지에 고양이와 강아지가 모두 들어 있을 때는 '고양이'레이블과 '강아지'레이블을 모두 할당해야 합니다. 보통 이미지마다 레이블의 개수는 다릅니다.

11) 스칼라 회귀: 타깃이 연속적인 스칼라 값인 작업. 주택 가격 예측이 좋은 예입니다. 각기 다른 타깃 가격이 연속적인 공간을 형성합니다.

12) 벡터 회귀: 타깃이 연속적인 값의 집합인 작업, 예를 들어 연속적인 값으로 이루어진 벡터입니다.(이미지에 있는 경계 상자의 좌표 같은) 여러 개의 값에 대한 회귀를 한다면 벡터 회귀입니다.

13) 미니 배치 또는 배치: 모델에 의해 동시에 처리되는 소량의 샘플 묶음(일반적으로 8개에서 128개 사이). 샘플 개수는 GPU의 메모리 할당이 용이하도록 2의 거듭제곱으로 하는 경우가 많습니다. 훈련할 때 미니 배치마다 한 번씩 모델의 가중치에 적용할 경사 하강법 업데이트 값을 계산합니다.

댓글 없음:

댓글 쓰기

Limit(0)

페이지

2022년 7월 28일 목요일

4.1.4 강화 학습

댓글 없음:

프로필

블로그 보관함