Limit(0): 군집 타당성 평가의 정량적 지표, 실루엣 계수(Silhouette Coefficient)

2026년 3월 31일 화요일

데이터 포인트가 자신이 속한 군집 내의 데이터들과 얼마나 유사한지(응집도), 그리고 다른 군집의 데이터들과는 얼마나 떨어져 있는지(분리도)를 계산하여 군집화의 품질을 평가하는 지표입니다.

평가 범위: $-1$ 에서 $1$ 사이의 값을 가집니다.
해석 기준: $1$ 에 가까울수록 근처 군집과 멀리 떨어져 잘 분리된 것이며, $0$ 에 가까우면 군집 경계에 위치, $-1$ 에 가까우면 잘못 분류되었음을 의미합니다.
독립성: 별도의 레이블(정답) 없이 데이터 자체의 거리만을 사용하여 평가합니다.

특정 데이터 포인트 $i$ 에 대한 실루엣 계수 $s(i)$는 다음과 같이 정의됩니다.

s(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))}

$a(i)$ (응집도, Cohesion): 데이터 $i$ 와 같은 군집 내에 있는 다른 데이터들 사이의 평균 거리. (작을수록 좋음)
$b(i)$ (분리도, Separation): 데이터 $i$ 와 가장 가까운 인접 군집 내에 있는 데이터들 사이의 평균 거리. (클수록 좋음)

계수 값 (s)	해석 및 의미
$s \approx 1$	데이터가 적절한 군집에 할당되었으며, 군집 간의 경계가 명확함.
$s \approx 0$	데이터가 두 군집의 경계 근처에 위치하여 분류가 모호함.
$s \approx -1$	데이터가 잘못된 군집에 할당되었을 가능성이 큼.

연산 복잡도: 모든 데이터 쌍 간의 거리를 계산하므로 데이터 양이 많아지면( $O(n^2)$ ) 계산 시간이 급증합니다.
군집 모양의 제약: 거리 기반 지표이므로 볼록한(Convex) 형태의 군집에서는 잘 작동하지만, 복잡한 밀도 기반(DBSCAN 등) 군집 평가에는 한계가 있습니다.

Internal vs External Evaluation: 정답이 없는 경우에는 실루엣 계수나 Dunn Index를 활용하고, 정답이 있는 경우에는 Rand Index나 F-measure를 병행하여 평가의 객관성을 확보해야 합니다.
차원의 저주 대응: 고차원 데이터에서는 유클리드 거리가 무의미해질 수 있으므로, PCA(주성분 분석) 등으로 차원을 축소한 후 실루엣 분석을 수행하는 것이 바람직합니다.
비즈니스 맥락 고려: 수학적 지표(실루엣)가 높더라도 실제 도메인 관점에서 군집의 해석 가능성(Interpretability)이 낮다면, 지표와 도메인 지식 사이의 균형을 맞춘 하이브리드 평가가 필요합니다.

Limit(0)