본문 바로가기
수학&통계학

시계열 분석 (2) : AR, MA, ARMA, ARIMA, SARIMA

by 코스믹구구 2026. 5. 15.
1편에서 정상성과 ACF/PACF를 배웠다.
이제 실제 시계열 모형을 배울 준비가 됐다.
이번 2편에서는 AR → MA → ARMA → ARIMA 순서로 각 모형이 어떤 아이디어에서 출발하고, 어떻게 작동하는지 단계별로 풀어본다.
수식이 낯설어도 괜찮다. 직관적인 의미를 먼저 잡는 것이 중요하다.

1. AR 모형 — 자기회귀 (AutoRegressive)

핵심 아이디어

"오늘 값은 어제, 그제, ... 값들의 영향을 받는다." 자기회귀란 말 그대로 자기 자신의 과거값으로 현재값을 예측(회귀)하는 것이다. 독립변수가 다른 변수가 아닌 자기 자신의 과거값이라는 점이 특이하다.

💡 일반 회귀 vs 자기회귀
일반 회귀: y = β₀ + β₁x₁ + β₂x₂ + ε     (다른 변수들로 예측)
자기회귀: y(t) = c + φ₁y(t−1) + φ₂y(t−2) + ε(t)     (자기 자신의 과거값으로 예측)
→ 독립변수가 외부 변수가 아니라 자기 자신의 이전 시점 값들이다.

AR(p) 모형 수식

y(t) = c + φ₁y(t−1) + φ₂y(t−2) + ··· + φₚy(t−p) + ε(t)
p: 차수 — 몇 시점 전까지의 값을 사용하는지
φ₁, φ₂, ..., φₚ: AR 계수 — 각 과거값의 영향력 (학습으로 추정)
c: 상수(절편)  |  ε(t): 백색 잡음(White Noise) — 평균 0, 분산 σ²인 랜덤 오차
📌 AR(1) 모형 — 일별 기온 예측 예시
모형 설정
y(t) = 2 + 0.85 × y(t−1) + ε(t)
해석: 오늘 기온 = 2 + (어제 기온의 85%) + 노이즈
예측 계산 (어제 기온 = 20°C)
오늘 예측 기온 = 2 + 0.85 × 20 = 2 + 17 = 19°C
(φ=0.85이므로 어제와 비슷하지만 평균(2/(1-0.85)≈13.3°C)으로 조금 수렴)
AR(1) 계수 φ₁의 의미
φ₁ = 0.85: 어제가 오늘에 85% 영향. 강한 양의 자기상관
φ₁ = 0: 과거가 현재에 무관. 순수 랜덤 (백색 잡음)
φ₁ = −0.5: 음의 자기상관. 어제 높으면 오늘 낮은 경향
|φ₁| < 1: 정상 조건 (계수 절댓값이 1 미만이어야 정상 시계열)

AR 모형의 특성 — ACF/PACF

  • ACF: 지수적으로 천천히 감소하거나 진동하며 감소
  • PACF: p차에서 급격히 0으로 떨어짐 (절단, Cut-off)
  • PACF가 p차에서 끊기면 AR(p) 모형을 의심
💡 AR 모형과 정상성 조건
AR(1): |φ₁| < 1
AR(p): 특성 방정식의 모든 근이 단위원 밖에 있어야 함
조건을 만족하지 않으면 시계열이 발산(폭발)한다.
예) φ₁ = 1.2면 값이 계속 커지며 발산 → 비정상 시계열

 

2. MA 모형 — 이동평균 (Moving Average)

핵심 아이디어

"현재값은 현재와 과거의 충격(오차)들의 합으로 결정된다." AR 모형이 과거의 실제 관측값을 사용하는 반면, MA 모형은 과거의 예측 오차(충격, Shock)를 사용한다.

갑자기 발생한 사건(주가 급락, 이상 기온 등)이 이후 몇 시점에 걸쳐 영향을 미치다가 사라지는 상황을 모델링한다.

⚠️ 헷갈리지 말 것 — 시계열의 MA ≠ 이동평균 스무딩
MA 모형의 "이동평균"은 3편에서 다룰 "이동평균 스무딩"(단순히 최근 k개 값의 평균)과 전혀 다르다.
MA 모형은 과거 오차항의 선형 결합으로 현재값을 설명하는 모형이다.

MA(q) 모형 수식

y(t) = μ + ε(t) + θ₁ε(t−1) + θ₂ε(t−2) + ··· + θ_q·ε(t−q)
q: 차수 — 몇 시점 전의 오차까지 포함하는지
θ₁, θ₂, ..., θ_q: MA 계수 — 각 과거 오차의 영향력
ε(t): 현재 시점의 백색 잡음  |  μ: 평균
📌 MA(1) 모형 — 커피숍 일별 손님 수 예시
모형 설정
y(t) = 100 + ε(t) + 0.6 × ε(t−1)
해석: 오늘 손님 = 평균(100명) + 오늘 충격 + (어제 충격의 60%)
직관적 해석
어제 갑자기 SNS에 소개되어 평균보다 30명이 더 왔다 → ε(t−1) = +30
오늘 손님 예측 = 100 + 오늘 충격 + 0.6 × 30 = 100 + 18 + 오늘 충격
→ SNS 효과가 오늘까지 60% 수준으로 이어진다는 의미
내일은? = 100 + 내일 충격 (어제의 충격은 1시점만 영향)
MA(q)의 핵심 특성
MA(q)에서 충격의 영향은 정확히 q시점 후에 사라진다 → "기억이 유한하다"
AR 모형은 충격이 지수적으로 감소하며 이론적으로 무한히 지속된다 → "기억이 무한하다"

MA 모형의 특성 — ACF/PACF

  • ACF: q차에서 급격히 0으로 떨어짐 (절단)
  • PACF: 지수적으로 천천히 감소
  • ACF가 q차에서 끊기면 MA(q) 모형을 의심

 

3. AR vs MA — 핵심 차이 정리

AR(p) 모형
과거 관측값으로 현재를 설명
y(t) = φ₁y(t−1) + ... + φₚy(t−p) + ε

충격의 영향: 무한히 지수 감소
기억: 긴 기억
ACF: 천천히 감소
PACF: p차에서 절단

예) 주가, 기온 — 관성이 강한 데이터
MA(q) 모형
과거 오차(충격)으로 현재를 설명
y(t) = μ + ε(t) + θ₁ε(t−1) + ... + θ_q·ε(t−q)

충격의 영향: q시점 후 완전히 사라짐
기억: 짧은 기억
ACF: q차에서 절단
PACF: 천천히 감소

예) 단기 이벤트 효과가 빠르게 소멸하는 데이터

 

4. ARMA 모형 — AR과 MA의 결합

핵심 아이디어

현실 데이터는 대부분 AR만으로도, MA만으로도 완벽히 설명이 안 된다. 두 구조가 동시에 존재하는 경우가 많다. ARMA는 AR과 MA를 하나로 합친 모형이다.

ARMA(p, q): y(t) = c + φ₁y(t−1) + ··· + φₚy(t−p) + ε(t) + θ₁ε(t−1) + ··· + θ_q·ε(t−q)
p: AR 차수 (과거 관측값 몇 개 사용)  |  q: MA 차수 (과거 오차 몇 개 사용)
ARMA(1,1): y(t) = c + φ₁y(t−1) + ε(t) + θ₁ε(t−1)
정상 시계열에만 적용 가능
📌 ARMA(1,1) 직관 예시 — 일별 전력 소비량
y(t) = 500 + 0.7×y(t−1) + ε(t) + 0.4×ε(t−1)

해석:
• 어제 전력 소비의 70%만큼 오늘에 이어진다 (AR 부분: 관성)
• 어제 발생한 충격(갑작스런 폭염 등)의 40%가 오늘까지 영향을 준다 (MA 부분: 충격 잔재)
→ 두 가지 메커니즘이 동시에 작동
💡 ARMA에서 p, q는 어떻게 결정하나?
ACF/PACF 그래프를 보고 p와 q를 추정하지만, 둘 다 천천히 감소하면 명확하지 않다.
실제로는 여러 (p, q) 조합을 시도해보고 AIC 또는 BIC가 가장 작은 모형을 선택한다.
• AIC (Akaike Information Criterion): 예측 성능 중시. 파라미터 수 많아도 너그러움
• BIC (Bayesian Information Criterion): 모형 단순성 중시. 파라미터가 많으면 더 큰 패널티
→ 일반적으로 BIC가 더 단순한 모형을 선택하는 경향

 

반응형

 

5. ARIMA 모형 — 비정상 시계열까지 처리

핵심 아이디어

ARMA는 정상 시계열에만 적용 가능하다. 현실의 많은 시계열(주가, 매출, GDP 등)은 추세가 있어 비정상이다. ARIMA는 차분으로 비정상을 제거한 후 ARMA를 적용하는 모형이다. 이름 자체가 그 과정을 담고 있다.

📌 ARIMA(p, d, q) — 이름의 의미
AR (p)AutoRegressive과거 관측값 p개 사용I (d)Integratedd번 차분 (정상화)MA (q)Moving Average과거 오차 q개 사용
ARIMA(p, d, q) 적용 과정:
원본 y(t) → d번 차분 → Δᵈy(t) → ARMA(p,q) 적용
d=0: 차분 없음. 원본이 이미 정상 → ARMA(p,q)와 동일
d=1: 1차 차분 후 ARMA 적용 (가장 흔한 경우)
d=2: 2차 차분 후 ARMA 적용 (추세가 매우 강할 때)

ARIMA 모형 적합 절차 — Box-Jenkins 방법론

📌 ARIMA 모형 선택 5단계
① 시각화 및 탐색
시계열 그래프를 그려 추세, 계절성, 분산 변화를 파악한다.
② 정상성 확인 및 변환
ADF 검정으로 정상성 확인. 비정상이면 차분(d 결정).
로그 변환으로 분산 안정화.
③ ACF/PACF로 p, q 후보 선정
차분 후 데이터의 ACF/PACF를 그려 p, q 후보를 선정한다.
PACF 절단 → AR(p) / ACF 절단 → MA(q)
④ 여러 (p, q) 조합 시도 후 AIC/BIC 비교
후보 모형들의 AIC, BIC를 계산해 가장 작은 값의 모형 선택.
실무에서는 auto_arima() 함수로 자동화할 수 있다.
⑤ 잔차 진단
잔차 = 실제값 − 예측값 이 백색 잡음인지 확인.
잔차의 ACF가 모두 유의 구간 안에 있어야 한다.
잔차에 패턴이 남아 있으면 모형이 불완전하다.

ARIMA 실전 예시 — 월별 커피 수출량 예측

📌 ARIMA(1,1,1) 적용 예시
상황
2015~2023년 월별 커피 수출량(톤) 데이터.
ADF 검정: p값 = 0.42 → 비정상 (추세 있음).
1차 차분 후 ADF: p값 = 0.012 → 정상 → d = 1
ACF/PACF 분석 (차분 후)
PACF: 시차 1에서 유의, 2부터 소멸 → p = 1
ACF: 시차 1에서 유의, 2부터 소멸 → q = 1
→ ARIMA(1, 1, 1) 선택
모형 수식
Δy(t) = c + φ₁·Δy(t−1) + ε(t) + θ₁·ε(t−1)
(Δy(t) = 1차 차분값 = y(t) − y(t−1))

추정 결과: c=12.3, φ₁=0.68, θ₁=−0.42
AIC = 1823.4 (여러 모형 중 최소)
잔차 진단
잔차 ACF: 모든 시차에서 유의 구간 내 → 백색 잡음 확인
Ljung-Box 검정 p값: 0.38 → H₀(잔차 자기상관 없음) 채택 → 모형 적합

 

6. SARIMA — 계절성을 가진 ARIMA

핵심 아이디어

ARIMA는 추세만 처리한다. 계절성이 있는 데이터(월별, 분기별 패턴)에는 SARIMA(Seasonal ARIMA)를 사용한다. 계절 차분과 계절 AR/MA를 추가한 확장 버전이다.

SARIMA(p, d, q)(P, D, Q)_s
소문자 (p, d, q): 일반 ARIMA 파라미터 (비계절 부분)
대문자 (P, D, Q): 계절 AR, 계절 차분, 계절 MA 파라미터
s: 계절 주기 (월별이면 s=12, 분기별이면 s=4, 주별이면 s=52)
💡 SARIMA 파라미터 해석 예시
SARIMA(1,1,1)(1,1,1)₁₂: 월별 데이터
• (1,1,1): 1차 차분 후 AR(1), MA(1) 적용
• (1,1,1)₁₂: 12개월 계절 차분 후 계절 AR(1), 계절 MA(1) 적용
→ 추세 제거 + 계절성 제거를 동시에 처리
→ 에어컨 판매량, 관광객 수, 전력 소비량처럼 계절성이 뚜렷한 데이터에 사용

 

7. AR / MA / ARMA / ARIMA / SARIMA 한눈에 비교

모형 입력 정상성 계절성 파라미터 주요 사용처
AR(p) 과거 관측값 필요 미처리 p 관성 강한 데이터
MA(q) 과거 오차 필요 미처리 q 단기 충격 데이터
ARMA(p,q) 관측값+오차 필요 미처리 p, q 복합 패턴 정상 데이터
ARIMA(p,d,q) 관측값+오차 불필요 미처리 p, d, q 추세 있는 데이터
SARIMA 관측값+오차 불필요 처리 p,d,q,P,D,Q,s 추세+계절성 있는 데이터
📌 실무에서 모형 선택 흐름
1. 계절성 있나? → Yes → SARIMA / No → ARIMA
2. 정상인가? → ADF 검정 → 비정상이면 차분 횟수 d 결정
3. ACF/PACF로 p, q 후보 → 여러 조합의 AIC/BIC 비교
4. 잔차 진단 → 백색 잡음이면 최종 채택
5. 예측 → 신뢰 구간과 함께 제시

📌 핵심 정리

  • AR(p): 과거 p개 관측값으로 현재 예측. φ 계수. PACF가 p차에서 절단
  • MA(q): 과거 q개 오차로 현재 예측. θ 계수. ACF가 q차에서 절단. 충격 q시점 후 소멸
  • AR 메모리 무한 / MA 메모리 유한: AR 충격은 지수 감소, MA 충격은 q시점 후 사라짐
  • ARMA(p,q): AR+MA 결합. 정상 시계열에 적용. AIC/BIC로 (p,q) 선택
  • ARIMA(p,d,q): d번 차분(I) 후 ARMA 적용. 비정상 데이터에 사용
  • d의 의미: 정상화에 필요한 차분 횟수. 보통 d=1로 충분
  • Box-Jenkins 절차: 시각화 → 정상성 변환 → ACF/PACF → AIC/BIC → 잔차 진단
  • 잔차 진단: 잔차가 백색 잡음이면 모형 적합. 패턴 남으면 모형 보완 필요
  • SARIMA: ARIMA + 계절 성분. (p,d,q)(P,D,Q)_s. 계절성 있는 데이터에 사용
  • AIC/BIC: 작을수록 좋은 모형. AIC는 예측력, BIC는 단순성 중시

3편에서는 시계열 분해, 이동평균 스무딩, 지수평활법, 예측 평가 지표를 다룬다.

728x90
반응형