1. 시계열 데이터의 패턴 추론, AR 및 MA 모형의 개요
정의: 과거의 데이터나 오차(Error)항을 이용하여 미래의 수치를 예측하는 통계적 모델로, 시계열 데이터의 **정상성(Stationarity)**을 전제로 함.
필요성: 주가 예측, 수요 전망, 기상 분석 등 시간의 흐름에 따라 변화하는 데이터 내의 상관관계와 불규칙한 변동을 정량적으로 모델링하기 위함.
2. AR(Autoregressive) 모형과 MA(Moving Average) 모형의 비교
가. AR(자기회귀) 모형: 과거가 미래를 결정한다
개념: 현시점의 변수 $Y_t$가 과거의 자신의 변수($Y_{t-1}, Y_{t-2}, \dots$)들에 의해 설명되는 모형.
특징: 과거 값에 대한 의존성을 중시하며, 충격(Shock)이 발생하면 그 효과가 오랫동안 지속되는 경향이 있음.
수식: $Y_t = c + \phi_1 Y_{t-1} + \dots + \phi_p Y_{t-p} + \epsilon_t$ (여기서 $p$는 시차(Lag)를 의미)
나. MA(이동평균) 모형: 과거의 오차가 미래에 영향을 준다
개념: 현시점의 변수 $Y_t$를 과거의 백색잡음(White Noise) 또는 예측 오차항($\epsilon_{t-1}, \epsilon_{t-2}, \dots$)의 선형 결합으로 설명하는 모형.
특징: 변동성(Volatility)에 민감하며, 특정 시점의 충격이 일정 기간($q$)이 지나면 소멸하는 성질을 가짐.
수식: $Y_t = \mu + \epsilon_t + \theta_1 \epsilon_{t-1} + \dots + \theta_q \epsilon_{t-q}$ (여기서 $q$는 오차항의 시차)
다. AR 모형과 MA 모형의 핵심 차이점
| 구분 | AR(p) 모형 | MA(q) 모형 |
| 설명 변수 | 과거 자신의 관측값 ($Y_{t-k}$) | 과거 예측 오차항 ($\epsilon_{t-k}$) |
| 충격 효과 | 상대적으로 오래 지속됨 (무한급수적) | 시차 $q$ 이후 소멸함 (유한함) |
| 결정 계수 | PACF(편자기상관함수) 시차 $p$ 후 절단 | ACF(자기상관함수) 시차 $q$ 후 절단 |
3. 모형 식별을 위한 ACF와 PACF 분석
모델의 차수($p, q$)를 결정하기 위해 자기상관함수(ACF)와 편자기상관함(PACF)의 패턴을 분석합니다.
| 모형 | ACF (Autocorrelation) | PACF (Partial ACF) |
| AR(p) | 지수적으로 감소하거나 소멸 | 시차 $p$ 이후 절단(0) |
| MA(q) | 시차 $q$ 이후 절단(0) | 지수적으로 감소하거나 소멸 |
| ARMA(p,q) | 시차 $q$ 이후 소멸 | 시차 $p$ 이후 소멸 |
4. 통합 모델링으로의 확장: ARMA 및 ARIMA
실제 데이터는 AR과 MA의 성분을 동시에 갖는 경우가 많아 이를 통합하여 사용합니다.
ARMA(p, q): AR과 MA를 결합하여 데이터의 경향성과 변동성을 동시에 반영.
ARIMA(p, d, q): 비정상 시계열 데이터를 차분($d$)하여 정상화한 후 ARMA 모델을 적용한 모형 (가장 널리 사용됨).
SARIMA: ARIMA에 계절성(Seasonality) 요인을 추가하여 주기적 패턴을 분석.
5. 기술사적 제언: 딥러닝 기반 시계열 분석과의 조화
전통 통계 모델의 가치: AR/MA 모델은 결과에 대한 **해석 가능성(Explainability)**이 매우 높으므로, 금융이나 공정 제어처럼 인과관계 설명이 중요한 분야에서 여전히 핵심적인 역할을 함.
하이브리드 전략: 데이터가 복잡하고 비선형적일 경우, 통계적 모델(ARIMA)로 선형 패턴을 추출하고, 딥러닝(LSTM, Transformer)으로 잔차(Residual)의 비선형 패턴을 학습하는 앙상블(Ensemble) 접근법 필요.
결언: 시계열 분석은 데이터의 과거를 통해 미래를 읽는 기술임. 기술사는 데이터의 특성(정상성, 계절성 등)을 정확히 진단하고, 목적에 부합하는 최적의 모델 차수를 도출하여 예측의 신뢰도를 확보해야 함.
댓글 없음:
댓글 쓰기