1. 실루엣 계수의 개요
가. 정의
데이터 포인트가 자신이 속한 군집 내의 데이터들과 얼마나 유사한지(응집도), 그리고 다른 군집의 데이터들과는 얼마나 떨어져 있는지(분리도)를 계산하여 군집화의 품질을 평가하는 지표입니다.
나. 특징
평가 범위: $-1$에서 $1$ 사이의 값을 가집니다.
해석 기준: $1$에 가까울수록 근처 군집과 멀리 떨어져 잘 분리된 것이며, $0$에 가까우면 군집 경계에 위치, $-1$에 가까우면 잘못 분류되었음을 의미합니다.
독립성: 별도의 레이블(정답) 없이 데이터 자체의 거리만을 사용하여 평가합니다.
2. 실루엣 계수의 계산 공식 및 메커니즘
가. 계산 공식
특정 데이터 포인트 $i$에 대한 실루엣 계수 $s(i)$는 다음과 같이 정의됩니다.
나. 주요 파라미터
$a(i)$ (응집도, Cohesion): 데이터 $i$와 같은 군집 내에 있는 다른 데이터들 사이의 평균 거리. (작을수록 좋음)
$b(i)$ (분리도, Separation): 데이터 $i$와 가장 가까운 인접 군집 내에 있는 데이터들 사이의 평균 거리. (클수록 좋음)
3. 실루엣 계수의 해석 및 최적 군집수 결정
| 계수 값 (s) | 해석 및 의미 |
| $s \approx 1$ | 데이터가 적절한 군집에 할당되었으며, 군집 간의 경계가 명확함. |
| $s \approx 0$ | 데이터가 두 군집의 경계 근처에 위치하여 분류가 모호함. |
| $s \approx -1$ | 데이터가 잘못된 군집에 할당되었을 가능성이 큼. |
최적 군집화 조건:
전체 평균 실루엣 계수가 $1$에 가까울수록 좋습니다. (통상 $0.5$ 이상을 권장)
개별 군집별 평균값의 편차가 작아야 합니다. (특정 군집만 계수가 높고 나머지는 낮으면 부적절)
4. 실루엣 계수의 활용 및 한계점
가. 활용 사례
최적 $k$ 선택: Elbow Method와 병행하여 가장 높은 실루엣 점수를 기록하는 $k$ 값을 선정.
이상치 탐지: 실루엣 계수가 음수이거나 현저히 낮은 데이터 포인트를 이상치(Outlier)로 식별.
나. 한계점
연산 복잡도: 모든 데이터 쌍 간의 거리를 계산하므로 데이터 양이 많아지면($O(n^2)$) 계산 시간이 급증합니다.
군집 모양의 제약: 거리 기반 지표이므로 볼록한(Convex) 형태의 군집에서는 잘 작동하지만, 복잡한 밀도 기반(DBSCAN 등) 군집 평가에는 한계가 있습니다.
5. 기술사적 제언: 다각적 군집 평가 체계 수립
Internal vs External Evaluation: 정답이 없는 경우에는 실루엣 계수나 Dunn Index를 활용하고, 정답이 있는 경우에는 Rand Index나 F-measure를 병행하여 평가의 객관성을 확보해야 합니다.
차원의 저주 대응: 고차원 데이터에서는 유클리드 거리가 무의미해질 수 있으므로, PCA(주성분 분석) 등으로 차원을 축소한 후 실루엣 분석을 수행하는 것이 바람직합니다.
비즈니스 맥락 고려: 수학적 지표(실루엣)가 높더라도 실제 도메인 관점에서 군집의 해석 가능성(Interpretability)이 낮다면, 지표와 도메인 지식 사이의 균형을 맞춘 하이브리드 평가가 필요합니다.
댓글 없음:
댓글 쓰기