1. 데이터 기반의 자율적 구조 파악, 군집화(Clustering)의 개요
정의: 데이터 간의 유사성(Similarity)을 측정하여 유사한 특징을 가진 데이터들을 동일한 그룹으로 묶는 비지도 학습(Unsupervised Learning) 기법.
주요 패러다임: 중심점 기반의 거리를 측정하는 K-Means와 데이터의 분포 밀도를 측정하는 DBSCAN이 대표적임.
2. K-Means Clustering: 중심점 기반 군집화
가. 개념 및 동작 원리
데이터를 $K$개의 군집으로 묶는 알고리즘으로, 각 군집의 중심(Centroid)과 데이터 간의 유클리드 거리 제곱합을 최소화하는 방향으로 반복 수행함.
나. 구성 요소
K (Hyperparameter): 형성할 군집의 개수. (Elbow Method 등으로 결정)
Centroid (중심점): 각 군집의 중심 위치를 나타내는 가상의 점.
Distance Metric: 데이터 간의 거리를 측정하는 척도 (주로 유클리드 거리).
다. 장점 및 단점
| 구분 | 장점 | 단점 |
| 장점 | 알고리즘이 단순하며 계산 속도가 매우 빠름 | 군집 수($K$)를 사전에 직접 지정해야 함 |
| 대용량 데이터에서도 비교적 효율적 수행 | 이상치(Outlier)에 매우 민감하여 중심이 왜곡됨 | |
| 단점 | 비즈니스 가독성이 높고 직관적임 | 원형(Spherical) 형태가 아닌 복잡한 형상 군집화 불가 |
3. DBSCAN: 밀도 기반 군집화
가. 개념 및 동작 원리
점들이 밀집된 정도를 기준으로 군집을 형성하며, 일정 반경 내에 최소 개수 이상의 데이터가 있으면 하나의 군집으로 판단하는 방식.
나. 구성 요소
Epsilon ($\epsilon$): 이웃을 정의하기 위한 탐색 반경.
MinPts: 하나의 군집을 형성하기 위해 필요한 최소 데이터 포인트 수.
데이터 포인트 분류: * Core Point (핵심점): 반경 내에 MinPts 이상의 점이 있는 점.
Border Point (경계점): 핵심점의 반경 내에 있지만 스스로는 핵심점이 아닌 점.
Noise Point (노이즈): 핵심점도 경계점도 아닌 이상치.
다. 장점 및 단점
| 구분 | 장점 | 단점 |
| 장점 | 군집의 개수를 사전에 정할 필요가 없음 | 데이터 밀도가 변하는 경우 성능이 급격히 저하됨 |
| 기하학적이고 복잡한 형태(초승달형 등) 군집화 가능 | 파라미터($\epsilon$, MinPts) 설정에 결과가 매우 민감함 | |
| **노이즈(이상치)**를 명확히 구분하여 제거 가능 | 고차원 데이터로 갈수록 거리 측정 효율성 저하 |
4. K-Means와 DBSCAN의 핵심 차이점 비교
| 비교 항목 | K-Means Clustering | DBSCAN |
| 군집 형성 원리 | 중심점과의 거리 기반 | 데이터 포인트의 밀도 기반 |
| 군집 수 결정 | 사용자 사전 지정 ($K$) | 알고리즘이 자동 결정 |
| 군집 형상 | 원형, 구형 위주 | 불규칙하고 복잡한 형상 가능 |
| 이상치 처리 | 모든 데이터를 군집에 할당 (취약) | 노이즈 포인트로 분류 및 배제 (강함) |
| 성능 특징 | 계산 복잡도가 낮음 ($O(n)$) | $K$-Means 대비 계산 복잡도 높음 ($O(n \log n)$) |
5. 기술사적 제언: 데이터 특성에 따른 알고리즘 선택 전략
데이터 전처리 필수: 두 알고리즘 모두 거리 기반이므로 변수 간 스케일 차이가 클 경우 성능이 저하됨. 표준화(Standardization) 작업 선행 필요.
하이브리드 접근: 데이터의 대략적인 구조는 $K$-Means로 파악하고, 세부적인 이상치 탐지나 복잡한 군집 형상이 의심될 때 DBSCAN을 병행 활용하는 전략 권고.
결언: 군집화는 정답이 없는 탐색적 분석임. 기술사는 데이터의 도메인 특성과 분포를 먼저 파악하고, 실질적인 비즈니스 인사이트(고객 세분화, 이상 거래 탐지 등)를 도출할 수 있는 최적의 모델을 선정해야 함.
댓글 없음:
댓글 쓰기