Limit(0): 데이터 분석에서 이상치(Outlier)와 편향(Bias)의 개념을 설명하고, 분석 결과에 미치는 영향 및 처리 방안을 설명하시오

1. 데이터 품질의 양대 왜곡 요인, 이상치와 편향의 개요

이상치(Outlier): 데이터셋의 전체적인 패턴이나 대다수의 다른 관측치로부터 현저하게 벗어난 극단적인 변동 값을 가진 데이터 (주로 개별 데이터의 일탈 현상).
편향(Bias): 데이터의 수집, 샘플링, 또는 모델 설계 오류로 인해 예측값이나 결과가 특정 방향으로 일관되게 치우치는 체계적 오류 (주로 전체 데이터나 모델의 구조적 왜곡 현상).

이상치를 방치하면 평균, 분산 등 통계적 지표가 왜곡되어 분석 모델의 '편향'을 유발할 수 있음.
따라서 고품질의 인공지능(AI) 분석 결과를 도출하기 위해서는 전처리 단계에서 이상치를 식별·제거하고, 데이터 수집 및 학습 단계에서 편향을 최소화하는 방안이 병행되어야 함.

비교 항목	이상치 (Outlier)	편향 (Bias)
발생 원인	* 입력 오류, 시스템 고장, 실험적 오류 * 희귀성 실제 현상 (예: 금융 이상거래)	* 샘플링 오류, 특정 집단 누락 * 모델 알고리즘의 표현력 한계 (Underfitting)
데이터 특성	무작위성, 고립성, 극단성	체계성, 반복성, 일관된 방향성
분석 영향도	통계치 가중치 왜곡, 모델 수렴 방해	모델의 객관성 상실, 차별적 결과 도출
수학적 관점	고분산(Variance) 유발의 원인	편향-분산 트레이드오프의 편향(Bias) 값

이상치 탐지 기법:
1. 사분위수 방식 (IQR, Interquartile Range): 박스 플롯(Box Plot)을 활용하여 $Q_1 - 1.5 \times \text{IQR}$ 미만이거나 $Q_3 + 1.5 \times \text{IQR}$ 초과인 값을 이상치로 판별.
2. Z-Score (표준점수): 평균으로부터 표준편차의 3배( $\pm3\sigma$ )를 벗어나는 데이터를 이상치로 정의.
3. 머신러닝 기반: Isolation Forest, LOF(Local Outlier Factor), Autoencoder 기법을 활용한 고차원 데이터 탐지.
편향 탐지 기법:
1. A/B 테스트 및 교차 검증: 모집단 분포와 샘플 분포의 통계적 유의성 검정(Chi-square test 등).
2. AI 공정성 지표 측정: 특정 보호 속성(성별, 인종 등)에 따른 모델의 예측 성공 확률 차이 분석(Disparate Impact 등).

영향: 평균( $\mu$ )과 표준편차( $\sigma$ )를 왜곡하여 왜도(Skewness)를 증가시키고, 선형 회귀 모델의 회귀선 기울기를 완전히 바꾸어 일반화 성능을 붕괴시킴.

분류	실무적 처리 방안	적용 시 유의사항 / 메커니즘
삭제 (Deletion)	* 단순 제거 (Listwise Deletion)	* 단순 에러임이 확실할 때 적용 (무조건 삭제 시 유의미한 정보 손실 위험)
대체 (Imputation)	* 최댓값/최솟값 한계 설정 (Winsorization) * 대표값(중앙값, 최빈값) 대체	* 데이터의 극단성을 완화하여 모델의 안정성 확보
변환 (Transformation)	* 로그 변환 (Log Transform) * 루트 변환 (Square Root)	* 데이터 분포의 비대칭성을 줄여 이상치의 절대적 영향력을 억제
분리 (Separation)	* 정상 데이터와 이상치 데이터를 분리 학습	* 이상치 자체가 목적인 경우 활용 (예: 이상탐지, 사기방지-FDS 모델)

영향: 데이터 수집 대상에 고정관념이나 차별적 시선이 포함될 경우 AI 모델이 이를 그대로 학습(Algorithmic Bias)하여 특정 집단에 불이익을 주는 윤리적·법적 리스크 초래.

분류	실무적 처리 방안	적용 시 유의사항 / 메커니즘
데이터 관점 (Pre-processing)	* 데이터 증강 (Data Augmentation) * 리샘플링 (SMOTE 등)	* 소수 사용자 집단의 데이터를 강제로 늘리거나 재추출하여 데이터 균형(Balance) 달성
알고리즘 관점 (In-processing)	* 규제화 (Regularization) 강화 * 공정성 손실 함수(Fairness Loss) 추가	* 모델 복잡도를 조절하여 Underfitting을 방지하거나, 편향된 결과 도출 시 페널티 부여
사후 대응 관점 (Post-processing)	* 임계값(Threshold) 조정	* 결과 출력 단계에서 특정 그룹에 부당한 결과가 나오지 않도록 판정 임계값을 동적으로 보정

지속 가능한 데이터 전처리 파이프라인 자동화: 이상치와 편향 처리는 데이터 분석가 개인의 일회성 스크립트 작성에 의존해서는 안 된다. 엔터프라이즈 환경에서는 데이터 수집-적재 단계에서 IQR이나 Z-Score 기반의 이상치 필터링 가드레일과 데이터 프로파일링 기술을 인입 파이프라인(Data Pipeline)에 내재화해야 한다.
책임감 있는 AI(Responsible AI)를 위한 거버넌스 연계: 데이터의 체계적 편향은 기업의 이미지 실추 및 법적 규제(AI법) 위반으로 이어진다. 따라서 데이터 자산화 및 가치평가 프로세스 내에 '데이터 편향성 평가 위원회'를 구성하고, 학습 모델 배포 전 MLOps 파이프라인 내부에서 공정성 지표 분석을 의무화하는 다층적 거버넌스를 확립해야 한다.