페이지

2022년 7월 15일 금요일

1.2.1 확률적 모델링

 확률적 모델링(probabilistic modelling)은 통계학 이론을 데이터 분석에 응용한 것 입니다. 초창기 머신 러닝 형태 중 하나고 요즘도 널리 사용됩니다. 가장 잘 알려진 알고리즘 주 하나는 나이브 베이즈(Naive Bayes)알고리즘 입니다.

나이브 베이즈는 입력 데이터의 특성이 모두 돌립적이라고 가정하고 베이즈 정리(Bayes' theorem)를 적용하는 머신 러닝 분류 알고리즘입니다.(가한 또는 '순진한'(naive)가정입니다. 여기에서 이름이 유래되었습니다.) 이럼 형태의 데이터 분석은 컴퓨터보다 앞서 있었기 때문에 첫 번째 컴퓨터가 등자하기 수십년 전에는 수작응로 적용했습니다(거의 1950년대로 거슬러 올라갑니다). 베이즈 정리와 통계의 모든 토대는 18세기까지 거슬러 올라갑니다. 이 정도가 나이브 베이즈 분류기를 사용하기 위해 알아야 할 전부입니다.

이와 밀접하게 연관된 모델이 로지스틱 희귀(logistic regression)입니다(줄여서 logreg라고 하겠습니다.) 이 모델은 현대 머신 러닝의 "heelo world"로 여겨집니다. 이름 때문에 혼동하지 마세요. logreg는 휘귀(regression)알고리즘이 아니라 분류(classification)알고리즘입니다. 나이브베이즈와 매우 비슷하게 logreg는 컴퓨터보다 훨씬 오래 전부터 있었습니다. 하지만 간단하고 다목적으로 활용할 수 있어서 오늘날에도 여전히 유용합니다.

데이터 과학자가 분류 작업에 대한 감을 빠르게 얻기 위해 데이터셋에 적용할 첫 번째 알고리즘으로 선택하는 경우가 많흡니다.

댓글 없음: