본문 바로가기
수학&통계학

연속형 확률분포 : t분포, 카이제곱 분포, F분포

by 코스믹구구 2026. 5. 11.
728x90
정규분포에서 파생된 세 가지 분포를 정리한다.
t분포, 카이제곱(χ²) 분포, F분포는 통계 검정에서 가장 자주 등장하는 분포들이다.
각각이 왜 필요한지, 어떻게 만들어지는지, 어떤 검정에서 쓰이는지를 하나씩 완전히 정리한다.
출발점
Z ~ N(0,1)
Z² 합산
χ²(k)
Z ÷ √(χ²/ν)
t(ν)
χ²/ν₁ ÷ χ²/ν₂
F(ν₁,ν₂)

세 분포 모두 표준정규분포 Z에서 파생된다

 

① t 분포 (Student's t-Distribution)

왜 t분포가 필요한가?

모집단이 정규분포를 따를 때, 모평균 μ를 추정하고 싶다고 하자. 표본 평균을 표준화하면 Z = (X̄ − μ) / (σ/√n) ~ N(0,1)이 된다. 그런데 모표준편차 σ를 모르는 경우가 대부분이다. 이때 σ 대신 표본표준편차 S를 쓰면 더 이상 Z 분포가 아닌 t 분포를 따른다.

❓ S를 쓰면 왜 정규분포가 안 되나?
σ는 고정된 상수지만, S는 표본마다 달라지는 확률변수다. 분모가 확률변수이므로 전체 통계량의 분포가 달라진다. 특히 n이 작을수록 S의 변동성이 커서 꼬리가 더 두꺼운 분포가 된다. 이 꼬리 두꺼운 분포가 바로 t분포다.

 

t분포의 정의 — 어떻게 만들어지는가

정의 Z ~ N(0,1), V ~ χ²(ν) 이고 Z와 V가 독립일 때:
T = Z / √(V/ν) ~ t(ν) → 분자: 표준정규, 분모: 카이제곱 변수를 자유도로 나눈 제곱근 표본 평균 검정에서 T = (X̄ − μ) / (S/√n) ~ t(n−1)
→ 자유도 ν = n−1. S²(표본분산)이 χ²(n−1)를 따르는 것에서 유도된다.

 

확률 밀도 함수(PDF)

f(t) = Γ((ν+1)/2) / (√(νπ) · Γ(ν/2)) · (1 + t²/ν)−(ν+1)/2
ν: 자유도(degrees of freedom)  |  Γ: 감마함수
−∞ < t < ∞  |  ν = 1이면 코시분포(Cauchy Distribution)와 동일

 

t분포의 모양 — 자유도에 따른 변화

 

평균과 분산

평균 E[T] = 0  (ν > 1일 때) → 좌우 대칭이므로 평균은 0. ν=1(코시분포)은 평균이 정의되지 않는다. 분산 Var(T) = ν / (ν−2)  (ν > 2일 때)
→ ν가 클수록 1에 가까워진다 (→ 표준정규분포의 분산 1로 수렴) → ν ≤ 2이면 분산이 무한대 또는 정의 불가 → 꼬리가 그만큼 두껍다는 의미
평균
0  (ν > 1)
대칭 분포
분산
ν / (ν−2)
ν > 2일 때 존재
표기
T ~ t(ν)
ν: 자유도

 

t분포의 주요 특징

  • 좌우 대칭: 정규분포처럼 0 중심으로 대칭
  • 두꺼운 꼬리: 정규분포보다 꼬리가 두껍다 → 극단값이 나올 확률이 더 높다
  • 자유도 ν → ∞이면 t분포 → 표준정규분포 N(0,1)로 수렴
  • ν = 1이면 코시(Cauchy) 분포: 평균·분산 모두 정의 안 됨

 

언제 t분포를 쓰는가?

상황 검정통계량 자유도
단일 모평균 검정 (σ 모름) T = (X̄−μ₀) / (S/√n) n−1
두 독립 표본 평균 차이 검정 T = (X̄₁−X̄₂) / Sp√(1/n₁+1/n₂) n₁+n₂−2
대응 표본(쌍체) 검정 T = D̄ / (S_D/√n) n−1
회귀계수 유의성 검정 T = β̂ / SE(β̂) n−k−1
💡 자유도(Degrees of Freedom)란?
데이터 n개에서 통계량 1개(예: 평균)를 추정하면 자유롭게 움직일 수 있는 데이터 수가 n−1개가 된다.
평균이 고정되면 n−1개의 값만 자유롭고, 나머지 1개는 자동으로 결정된다.
자유도가 클수록 추정의 불확실성이 낮아지므로 분포가 정규분포에 가까워진다.

 

 

반응형

 

② 카이제곱 분포 (χ² Distribution)

왜 카이제곱 분포가 필요한가?

평균이 아니라 분산을 추정하거나 검정할 때, 또는 범주형 데이터의 적합도를 검정할 때 등장한다. 분산은 편차의 제곱합으로 계산되기 때문에 항상 양수이고, 카이제곱 분포도 마찬가지로 0 이상의 값만 가진다.

 

카이제곱 분포의 정의 — 어떻게 만들어지는가

정의 Z₁, Z₂, …, Zₖ 가 서로 독립인 표준정규 확률변수일 때:
χ² = Z₁² + Z₂² + ··· + Zₖ² ~ χ²(k) → 표준정규 확률변수의 제곱합. 자유도 k는 Z의 개수. 표본분산과의 관계 표본분산 S²을 사용하면:
(n−1)S² / σ² ~ χ²(n−1) → 이 성질이 모분산 추정과 분산 검정의 이론적 기반이다.

확률 밀도 함수(PDF)

f(x) = x(k/2−1) · e−x/2 / (2k/2 · Γ(k/2))  ,   x > 0
k: 자유도  |  Γ: 감마함수  |  x ≤ 0이면 f(x) = 0

자유도에 따른 분포 형태

 

평균과 분산

평균 E[χ²] = k → Z²의 기댓값 = E[Z²] = Var(Z) = 1 이므로, k개 합산하면 k 분산 Var(χ²) = 2k → Z²의 분산 = E[Z⁴] − (E[Z²])² = 3 − 1 = 2 이므로, k개 합산하면 2k 비대칭도 왜도(Skewness) = √(8/k) → k가 클수록 왜도가 0에 가까워져 정규분포에 근접
평균
E[χ²] = k
자유도 그 자체
분산
Var(χ²) = 2k
자유도의 2배
표기
χ² ~ χ²(k)
k: 자유도

 

카이제곱 분포의 가법성

X ~ χ²(m), Y ~ χ²(n) 이고 독립이면:
X + Y ~ χ²(m+n) → 독립인 카이제곱 변수의 합은 자유도를 더한 카이제곱 분포를 따른다.

 

언제 카이제곱 분포를 쓰는가?

상황 검정통계량 자유도
모분산 검정 χ² = (n−1)S²/σ₀² n−1
적합도 검정 (Goodness of Fit) χ² = Σ(O−E)²/E 범주수−1
독립성 검정 (교차표) χ² = Σ(O−E)²/E (행−1)(열−1)
동질성 검정 χ² = Σ(O−E)²/E (행−1)(열−1)
💡 적합도 검정의 (O−E)²/E 공식 이해
O: 관측 빈도(Observed), E: 기댓값 빈도(Expected)
차이(O−E)를 제곱한 뒤 E로 나누는 이유: E가 클수록 차이도 클 수 있으므로 상대적 크기로 비교
이 값이 클수록 관측값이 기대값에서 크게 벗어난 것 → χ² 통계량이 크면 귀무가설 기각
📌 카이제곱 분포의 특징 요약
• 항상 비음수(x ≥ 0) — 제곱의 합이므로
• 오른쪽으로 치우친 분포 (positive skew)
• k가 클수록 정규분포에 근접
• k=2이면 지수분포와 동일 (λ=1/2인 지수분포)

 

③ F 분포 (F-Distribution)

왜 F분포가 필요한가?

두 집단의 분산이 같은지 비교하거나, 세 집단 이상의 평균이 모두 같은지(분산분석, ANOVA) 검정할 때 사용한다. F분포는 두 카이제곱 분포의 비율로 만들어진다.

 

F분포의 정의 — 어떻게 만들어지는가

정의 U ~ χ²(d₁), V ~ χ²(d₂) 이고 독립일 때:
F = (U/d₁) / (V/d₂) ~ F(d₁, d₂) → 각 카이제곱 변수를 자유도로 나눈 뒤 비율을 취한다. 분산 비교에서 S₁², S₂²이 각각 n₁, n₂개 표본의 분산이면:
F = S₁² / S₂² ~ F(n₁−1, n₂−1) → 두 표본분산의 비율이 F분포를 따른다. ANOVA에서 F = (집단 간 분산 MSB) / (집단 내 분산 MSW)
→ 집단 간 변동이 집단 내 변동보다 충분히 크면 F값이 커져 평균 차이가 유의하다고 판단

 

확률 밀도 함수(PDF)

f(x) = √((d₁x)d₁ · d₂d₂ / (d₁x+d₂)d₁+d₂) / (x · B(d₁/2, d₂/2))  ,   x > 0
d₁: 분자 자유도  |  d₂: 분모 자유도
B: 베타함수  |  실제로는 F표나 소프트웨어를 활용해 계산

 

자유도에 따른 분포 형태

 

평균과 분산

평균 E[F] = d₂ / (d₂ − 2)  (d₂ > 2일 때) → 분모 자유도 d₂만으로 결정된다. d₂가 클수록 1에 가까워진다. 분산 Var(F) = 2d₂²(d₁+d₂−2) / (d₁(d₂−2)²(d₂−4))  (d₂ > 4일 때) → 공식이 복잡하므로 수치 계산은 소프트웨어를 활용한다.
평균
d₂ / (d₂−2)
d₂ > 2일 때
표기
F ~ F(d₁, d₂)
분자·분모 자유도 순서 중요

 

F분포의 중요한 성질

역수 성질 X ~ F(d₁, d₂) 이면   1/X ~ F(d₂, d₁) → 자유도 순서만 뒤집히면 역수가 된다. F표 읽을 때 활용. t분포와의 관계 T ~ t(ν) 이면   T² ~ F(1, ν) → t분포의 제곱은 F(1, ν)를 따른다. 양측 t검정 = 분자 자유도 1인 F검정. 분자 자유도가 1이면 F(1, ν) = t(ν)² → 두 집단 평균 비교를 t검정으로 하든 ANOVA로 하든 결과가 동일한 이유.

 

언제 F분포를 쓰는가?

상황 검정통계량 자유도
두 모분산 비교 (등분산 검정) F = S₁² / S₂² F(n₁−1, n₂−1)
일원분산분석 (One-way ANOVA) F = MSB / MSW F(k−1, N−k)
이원분산분석 (Two-way ANOVA) F = MS_factor / MS_error 각 요인별
회귀모형 유의성 검정 F = MSR / MSE F(k, n−k−1)
💡 ANOVA에서 F값이 의미하는 것
F = MSB(Between) / MSW(Within)
MSB(집단 간 평균제곱): 집단 평균들 사이의 변동 — 처리 효과 + 오차
MSW(집단 내 평균제곱): 각 집단 내부의 변동 — 순수 오차
→ F가 크다 = 집단 간 변동이 집단 내 변동보다 크다 = 집단 평균에 유의미한 차이가 있다
→ F ≈ 1 이면 집단 간 차이가 오차 수준에 불과하다
⚠️ F분포 자유도 순서에 주의
F(d₁, d₂)에서 d₁은 분자(numerator) 자유도, d₂는 분모(denominator) 자유도다.
F표를 읽을 때 순서를 바꾸면 완전히 다른 임계값이 나온다.
역수 성질에 의해 F(d₁,d₂)와 F(d₂,d₁)는 서로 역수 관계이므로 헷갈리면 안 된다.

 

④ 세 분포 완전 비교

구분 t 분포 χ² 분포 F 분포
정의 Z / √(χ²/ν) ΣZᵢ² (χ²/d₁) / (χ²/d₂)
범위 −∞ ~ ∞ 0 ~ ∞ 0 ~ ∞
모양 좌우 대칭, 종 모양 오른쪽 치우침 오른쪽 치우침
모수 자유도 ν 자유도 k 자유도 d₁, d₂
평균 0 k d₂/(d₂−2)
분산 ν/(ν−2) 2k 복잡한 식
n→∞ 극한 N(0,1) N(k, 2k) 근사 N 근사
주요 검정 평균 검정 분산, 범주 검정 분산 비교, ANOVA
기반 분포 N(0,1) + χ² N(0,1)²의 합 χ² + χ²
📌 세 분포의 공통점
1. 모두 표준정규분포 N(0,1)에서 파생된다
2. 모두 자유도(ν, k, d₁/d₂)라는 모수를 가진다
3. 자유도가 커질수록 모두 정규분포에 근접한다
4. 모두 추정과 가설 검정에서 핵심적으로 사용된다

📌 핵심 정리

  • t분포: σ 모를 때 평균 검정 → T = (X̄−μ)/(S/√n) ~ t(n−1)
  • t 평균=0, 분산=ν/(ν−2)  |  꼬리 두껍고 ν→∞이면 Z로 수렴
  • χ²분포: 표준정규 제곱합 → χ² = Z₁²+…+Zₖ² ~ χ²(k)
  • χ² 평균=k, 분산=2k  |  분산검정·적합도·독립성 검정에 사용
  • (n−1)S²/σ² ~ χ²(n−1): 표본분산과 카이제곱의 핵심 연결고리
  • F분포: χ² 비율 → F = (χ²/d₁)/(χ²/d₂) ~ F(d₁, d₂)
  • F 평균=d₂/(d₂−2)  |  분산비교·ANOVA·회귀모형 검정에 사용
  • T² ~ F(1,ν): t분포와 F분포의 관계
  • 1/F(d₁,d₂) ~ F(d₂,d₁): F분포 역수 성질
  • 세 분포 모두 N(0,1)에서 파생되고, 자유도↑ → 정규분포에 수렴
728x90