Limit(0): 빅데이터 분석기법 중 클러스터링, 필터링, 이상치 탐지

1. 빅데이터 가치 창출의 3대 초석, 핵심 분석기법의 개요

클러스터링 (Clustering): 데이터 간의 유사성(Similarity)을 측정하여 별도의 정답 레이블 없이 유사한 특성을 가진 데이터들을 스스로 하나의 그룹(군집)으로 묶는 비지도학습(Unsupervised Learning) 기법.
필터링 (Filtering): 방대한 빅데이터 스트림 속에서 소음(Noise)을 제거하고 분석 목적에 부합하는 유효 데이터만을 추출하거나, 사용자 맞춤형 정보를 선별하는 전처리 및 추천 기법.
이상치 탐지 (Outlier Detection): 전체 데이터의 일반적인 통계적 분포나 대다수의 패턴으로부터 현저하게 벗어나 극단적인 거동을 보이는 희귀 데이터(Anomaly)를 식별하는 기법.

세 기법은 데이터의 노이즈를 걷어내고(필터링), 정상적인 데이터의 숨겨진 패턴을 군집화하며(클러스터링), 군집에 포함되지 않는 이질적 신호를 포착(이상치 탐지)함으로써 빅데이터 정제부터 고급 분석까지 엔드투엔드로 연결되는 상호보완적 관계이다.

동작 원리: 데이터 공간 내 객체 간의 거리(유클리디안, 맨하튼 등)를 계산하여 거리가 가까운 데이터들을 동일 군집으로 판정하고, 군집 간의 거리는 극대화하는 방식.
주요 알고리즘 및 기술:
1. K-Means (중심 기반): 사전에 정의된 $K$ 개의 군집 중심점(Centroid)을 지정하고, 중심점과 각 데이터 간의 거리를 반복 계산하여 중심을 업데이트하는 분할 알고리즘.
2. DBSCAN (밀도 기반): 기하학적 형태에 구애받지 않고, 특정 반경( $\epsilon$ ) 내에 최소 데이터 개수(MinPts) 이상이 밀집해 있는 영역을 하나의 군집으로 인식하여 노이즈와 군집을 명확히 분리.
3. 계층적 군집화 (Hierarchical): 개별 데이터 점들을 상향식(Agglomerative) 또는 하향식(Divisive)으로 병합/분할하며 트리 구조(Dendrogram)를 형성하는 기법.

동작 원리: 데이터 전처리 단계에서는 신호 대 잡음비(SNR) 향상을 위해 저주파/고주파 성분을 제어하며, 데이터 추천 단계에서는 사용자 프로필과 아이템 속성의 유사도를 기반으로 최적의 서브셋을 추출함.
주요 기법 및 기술:
1. 콘텐츠 기반 필터링 (Content-based): 사용자가 과거에 선호했던 아이템의 텍스트 속성(TF-IDF 등)을 분석하여 유사한 특성을 가진 새로운 아이템을 추천하는 기법.
2. 협업 필터링 (Collaborative Filtering): 다수 사용자들의 행동 이력(구매, 평점) 매트릭스를 기반으로 유사한 성향을 가진 '이웃 사용자'가 좋아하는 아이템을 추천하는 기술 (메모리 기반, 행렬 분해(MF) 기반).
3. 칼만 필터 (Kalman Filter) 및 이동평균: 시계열 센서 데이터 수집 시 불규칙한 노이즈를 수학적 예측과 업데이트 루프로 상쇄하여 원본 신호를 추정하는 기술.

동작 원리: 대다수의 정상 데이터가 형성하는 밀도나 경계선 밖의 영역을 사기(Fraud) 또는 결함(Fault)으로 인지하며, 지도학습으로 대응하기 힘든 제로데이(Day-Zero) 위협 탐지에 유용함.
주요 알고리즘 및 기술:
1. IQR (Interquartile Range) 방식: 데이터 통계치의 상위 $75\%$ ( $Q_3$ )와 하위 $25\%$ ( $Q_1$ )의 차이인 IQR을 기준으로 범위를 설정하고, 격리된 극단값을 탐지(Box Plot 활용).
2. Isolation Forest (트리 기반): 정상 데이터는 격리(Isolate)하기 위해 트리를 많이 분기해야 하지만, 이상치는 트리 구조 상 몇 번의 분기(Short Path)만으로도 쉽게 고립된다는 특성을 이용한 고속 탐지 알고리즘.
3. 오토인코더 (Autoencoder - 딥러닝 기반): 입력 데이터를 압축 후 복원하는 신경망으로, 정상 데이터 위주로 가중치를 학습시킨 뒤 입력된 이상치 데이터의 복원 손실(Reconstruction Error)이 높게 나타나는 현상을 이용해 탐지.

기술사 답안의 핵심인 가시성을 확보하기 위해 세 가지 기법의 특성을 다각도로 대조 분석한다.

실시간 데이터 스트림 가속화(Lambda/Kappa Architecture): 현대의 빅데이터 환경(IoT 센서 데이터, 로그 데이터 등)에서는 대용량 데이터가 실시간으로 쏟아진다. 따라서 클러스터링과 이상치 탐지 모델은 주기적인 배치가 아닌, Apache Kafka 및 Flink 기반의 스트리밍 데이터 파이프라인 안에서 필터링 기술과 결합하여 '인-메모리(In-Memory)' 레벨에서 즉시 연산되도록 아키텍처를 고도화해야 한다.
차원 축소(Dimension Reduction) 기술과의 결합: 변수가 수백 개에 달하는 고차원 빅데이터에 클러스터링이나 이상치 탐지를 직접 적용하면 연산량이 폭증하고 성능이 저하되는 '차원의 저주(Curse of Dimensionality)'가 발생한다. 이를 방지하기 위해 PCA(주성분 분석)나 t-SNE, 매니폴드 학습 등을 선행 필터링 기술로 전치 배치하여, 핵심 피처(Feature) 위주로 차원을 압축한 뒤 분석 알고리즘을 구동하는 단계적 데이터 거버넌스 확립이 필요하다.