연속형 확률분포 : t분포, 카이제곱 분포, F분포

728x90

정규분포에서 파생된 세 가지 분포를 정리한다.
t분포, 카이제곱(χ²) 분포, F분포는 통계 검정에서 가장 자주 등장하는 분포들이다.
각각이 왜 필요한지, 어떻게 만들어지는지, 어떤 검정에서 쓰이는지를 하나씩 완전히 정리한다.

출발점

Z ~ N(0,1)

→

Z² 합산

χ²(k)

→

Z ÷ √(χ²/ν)

t(ν)

→

χ²/ν₁ ÷ χ²/ν₂

F(ν₁,ν₂)

세 분포 모두 표준정규분포 Z에서 파생된다

① t 분포 (Student's t-Distribution)

왜 t분포가 필요한가?

모집단이 정규분포를 따를 때, 모평균 μ를 추정하고 싶다고 하자. 표본 평균을 표준화하면 Z = (X̄ − μ) / (σ/√n) ~ N(0,1)이 된다. 그런데 모표준편차 σ를 모르는 경우가 대부분이다. 이때 σ 대신 표본표준편차 S를 쓰면 더 이상 Z 분포가 아닌 t 분포를 따른다.

❓ S를 쓰면 왜 정규분포가 안 되나?

σ는 고정된 상수지만, S는 표본마다 달라지는 확률변수다. 분모가 확률변수이므로 전체 통계량의 분포가 달라진다. 특히 n이 작을수록 S의 변동성이 커서 꼬리가 더 두꺼운 분포가 된다. 이 꼬리 두꺼운 분포가 바로 t분포다.

t분포의 정의 — 어떻게 만들어지는가

정의 Z ~ N(0,1), V ~ χ²(ν) 이고 Z와 V가 독립일 때:
T = Z / √(V/ν) ~ t(ν) → 분자: 표준정규, 분모: 카이제곱 변수를 자유도로 나눈 제곱근 표본 평균 검정에서 T = (X̄ − μ) / (S/√n) ~ t(n−1)
→ 자유도 ν = n−1. S²(표본분산)이 χ²(n−1)를 따르는 것에서 유도된다.

확률 밀도 함수(PDF)

f(t) = Γ((ν+1)/2) / (√(νπ) · Γ(ν/2)) · (1 + t²/ν)^−(ν+1)/2

ν: 자유도(degrees of freedom) | Γ: 감마함수
−∞ < t < ∞ | ν = 1이면 코시분포(Cauchy Distribution)와 동일

t분포의 모양 — 자유도에 따른 변화

평균과 분산

평균 E[T] = 0 (ν > 1일 때) → 좌우 대칭이므로 평균은 0. ν=1(코시분포)은 평균이 정의되지 않는다. 분산 Var(T) = ν / (ν−2) (ν > 2일 때)
→ ν가 클수록 1에 가까워진다 (→ 표준정규분포의 분산 1로 수렴) → ν ≤ 2이면 분산이 무한대 또는 정의 불가 → 꼬리가 그만큼 두껍다는 의미

평균

0 (ν > 1)

대칭 분포

분산

ν / (ν−2)

ν > 2일 때 존재

표기

T ~ t(ν)

ν: 자유도

t분포의 주요 특징

좌우 대칭: 정규분포처럼 0 중심으로 대칭
두꺼운 꼬리: 정규분포보다 꼬리가 두껍다 → 극단값이 나올 확률이 더 높다
자유도 ν → ∞이면 t분포 → 표준정규분포 N(0,1)로 수렴
ν = 1이면 코시(Cauchy) 분포: 평균·분산 모두 정의 안 됨

언제 t분포를 쓰는가?

상황	검정통계량	자유도
단일 모평균 검정 (σ 모름)	T = (X̄−μ₀) / (S/√n)	n−1
두 독립 표본 평균 차이 검정	T = (X̄₁−X̄₂) / Sp√(1/n₁+1/n₂)	n₁+n₂−2
대응 표본(쌍체) 검정	T = D̄ / (S_D/√n)	n−1
회귀계수 유의성 검정	T = β̂ / SE(β̂)	n−k−1

💡 자유도(Degrees of Freedom)란?
데이터 n개에서 통계량 1개(예: 평균)를 추정하면 자유롭게 움직일 수 있는 데이터 수가 n−1개가 된다.
평균이 고정되면 n−1개의 값만 자유롭고, 나머지 1개는 자동으로 결정된다.
자유도가 클수록 추정의 불확실성이 낮아지므로 분포가 정규분포에 가까워진다.

② 카이제곱 분포 (χ² Distribution)

왜 카이제곱 분포가 필요한가?

평균이 아니라 분산을 추정하거나 검정할 때, 또는 범주형 데이터의 적합도를 검정할 때 등장한다. 분산은 편차의 제곱합으로 계산되기 때문에 항상 양수이고, 카이제곱 분포도 마찬가지로 0 이상의 값만 가진다.

카이제곱 분포의 정의 — 어떻게 만들어지는가

정의 Z₁, Z₂, …, Zₖ 가 서로 독립인 표준정규 확률변수일 때:
χ² = Z₁² + Z₂² + ··· + Zₖ² ~ χ²(k) → 표준정규 확률변수의 제곱합. 자유도 k는 Z의 개수. 표본분산과의 관계 표본분산 S²을 사용하면:
(n−1)S² / σ² ~ χ²(n−1) → 이 성질이 모분산 추정과 분산 검정의 이론적 기반이다.

확률 밀도 함수(PDF)

f(x) = x^(k/2−1) · e^−x/2 / (2^k/2 · Γ(k/2)) , x > 0

k: 자유도 | Γ: 감마함수 | x ≤ 0이면 f(x) = 0

자유도에 따른 분포 형태

평균과 분산

평균 E[χ²] = k → Z²의 기댓값 = E[Z²] = Var(Z) = 1 이므로, k개 합산하면 k 분산 Var(χ²) = 2k → Z²의 분산 = E[Z⁴] − (E[Z²])² = 3 − 1 = 2 이므로, k개 합산하면 2k 비대칭도 왜도(Skewness) = √(8/k) → k가 클수록 왜도가 0에 가까워져 정규분포에 근접

평균

E[χ²] = k

자유도 그 자체

분산

Var(χ²) = 2k

자유도의 2배

표기

χ² ~ χ²(k)

k: 자유도

카이제곱 분포의 가법성

X ~ χ²(m), Y ~ χ²(n) 이고 독립이면:
X + Y ~ χ²(m+n) → 독립인 카이제곱 변수의 합은 자유도를 더한 카이제곱 분포를 따른다.

언제 카이제곱 분포를 쓰는가?

상황	검정통계량	자유도
모분산 검정	χ² = (n−1)S²/σ₀²	n−1
적합도 검정 (Goodness of Fit)	χ² = Σ(O−E)²/E	범주수−1
독립성 검정 (교차표)	χ² = Σ(O−E)²/E	(행−1)(열−1)
동질성 검정	χ² = Σ(O−E)²/E	(행−1)(열−1)

💡 적합도 검정의 (O−E)²/E 공식 이해
O: 관측 빈도(Observed), E: 기댓값 빈도(Expected)
차이(O−E)를 제곱한 뒤 E로 나누는 이유: E가 클수록 차이도 클 수 있으므로 상대적 크기로 비교
이 값이 클수록 관측값이 기대값에서 크게 벗어난 것 → χ² 통계량이 크면 귀무가설 기각

📌 카이제곱 분포의 특징 요약
• 항상 비음수(x ≥ 0) — 제곱의 합이므로
• 오른쪽으로 치우친 분포 (positive skew)
• k가 클수록 정규분포에 근접
• k=2이면 지수분포와 동일 (λ=1/2인 지수분포)

③ F 분포 (F-Distribution)

왜 F분포가 필요한가?

두 집단의 분산이 같은지 비교하거나, 세 집단 이상의 평균이 모두 같은지(분산분석, ANOVA) 검정할 때 사용한다. F분포는 두 카이제곱 분포의 비율로 만들어진다.

F분포의 정의 — 어떻게 만들어지는가

정의 U ~ χ²(d₁), V ~ χ²(d₂) 이고 독립일 때:
F = (U/d₁) / (V/d₂) ~ F(d₁, d₂) → 각 카이제곱 변수를 자유도로 나눈 뒤 비율을 취한다. 분산 비교에서 S₁², S₂²이 각각 n₁, n₂개 표본의 분산이면:
F = S₁² / S₂² ~ F(n₁−1, n₂−1) → 두 표본분산의 비율이 F분포를 따른다. ANOVA에서 F = (집단 간 분산 MSB) / (집단 내 분산 MSW)
→ 집단 간 변동이 집단 내 변동보다 충분히 크면 F값이 커져 평균 차이가 유의하다고 판단

확률 밀도 함수(PDF)

f(x) = √((d₁x)^d₁ · d₂^d₂ / (d₁x+d₂)^d₁+d₂) / (x · B(d₁/2, d₂/2)) , x > 0

d₁: 분자 자유도 | d₂: 분모 자유도
B: 베타함수 | 실제로는 F표나 소프트웨어를 활용해 계산

자유도에 따른 분포 형태

평균과 분산

평균 E[F] = d₂ / (d₂ − 2) (d₂ > 2일 때) → 분모 자유도 d₂만으로 결정된다. d₂가 클수록 1에 가까워진다. 분산 Var(F) = 2d₂²(d₁+d₂−2) / (d₁(d₂−2)²(d₂−4)) (d₂ > 4일 때) → 공식이 복잡하므로 수치 계산은 소프트웨어를 활용한다.

평균

d₂ / (d₂−2)

d₂ > 2일 때

표기

F ~ F(d₁, d₂)

분자·분모 자유도 순서 중요

F분포의 중요한 성질

역수 성질 X ~ F(d₁, d₂) 이면 1/X ~ F(d₂, d₁) → 자유도 순서만 뒤집히면 역수가 된다. F표 읽을 때 활용. t분포와의 관계 T ~ t(ν) 이면 T² ~ F(1, ν) → t분포의 제곱은 F(1, ν)를 따른다. 양측 t검정 = 분자 자유도 1인 F검정. 분자 자유도가 1이면 F(1, ν) = t(ν)² → 두 집단 평균 비교를 t검정으로 하든 ANOVA로 하든 결과가 동일한 이유.

언제 F분포를 쓰는가?

상황	검정통계량	자유도
두 모분산 비교 (등분산 검정)	F = S₁² / S₂²	F(n₁−1, n₂−1)
일원분산분석 (One-way ANOVA)	F = MSB / MSW	F(k−1, N−k)
이원분산분석 (Two-way ANOVA)	F = MS_factor / MS_error	각 요인별
회귀모형 유의성 검정	F = MSR / MSE	F(k, n−k−1)

💡 ANOVA에서 F값이 의미하는 것
F = MSB(Between) / MSW(Within)
• MSB(집단 간 평균제곱): 집단 평균들 사이의 변동 — 처리 효과 + 오차
• MSW(집단 내 평균제곱): 각 집단 내부의 변동 — 순수 오차
→ F가 크다 = 집단 간 변동이 집단 내 변동보다 크다 = 집단 평균에 유의미한 차이가 있다
→ F ≈ 1 이면 집단 간 차이가 오차 수준에 불과하다

⚠️ F분포 자유도 순서에 주의
F(d₁, d₂)에서 d₁은 분자(numerator) 자유도, d₂는 분모(denominator) 자유도다.
F표를 읽을 때 순서를 바꾸면 완전히 다른 임계값이 나온다.
역수 성질에 의해 F(d₁,d₂)와 F(d₂,d₁)는 서로 역수 관계이므로 헷갈리면 안 된다.

④ 세 분포 완전 비교

구분	t 분포	χ² 분포	F 분포
정의	Z / √(χ²/ν)	ΣZᵢ²	(χ²/d₁) / (χ²/d₂)
범위	−∞ ~ ∞	0 ~ ∞	0 ~ ∞
모양	좌우 대칭, 종 모양	오른쪽 치우침	오른쪽 치우침
모수	자유도 ν	자유도 k	자유도 d₁, d₂
평균	0	k	d₂/(d₂−2)
분산	ν/(ν−2)	2k	복잡한 식
n→∞ 극한	N(0,1)	N(k, 2k) 근사	N 근사
주요 검정	평균 검정	분산, 범주 검정	분산 비교, ANOVA
기반 분포	N(0,1) + χ²	N(0,1)²의 합	χ² + χ²

📌 세 분포의 공통점
1. 모두 표준정규분포 N(0,1)에서 파생된다
2. 모두 자유도(ν, k, d₁/d₂)라는 모수를 가진다
3. 자유도가 커질수록 모두 정규분포에 근접한다
4. 모두 추정과 가설 검정에서 핵심적으로 사용된다

📌 핵심 정리

t분포: σ 모를 때 평균 검정 → T = (X̄−μ)/(S/√n) ~ t(n−1)
t 평균=0, 분산=ν/(ν−2) | 꼬리 두껍고 ν→∞이면 Z로 수렴
χ²분포: 표준정규 제곱합 → χ² = Z₁²+…+Zₖ² ~ χ²(k)
χ² 평균=k, 분산=2k | 분산검정·적합도·독립성 검정에 사용
(n−1)S²/σ² ~ χ²(n−1): 표본분산과 카이제곱의 핵심 연결고리
F분포: χ² 비율 → F = (χ²/d₁)/(χ²/d₂) ~ F(d₁, d₂)
F 평균=d₂/(d₂−2) | 분산비교·ANOVA·회귀모형 검정에 사용
T² ~ F(1,ν): t분포와 F분포의 관계
1/F(d₁,d₂) ~ F(d₂,d₁): F분포 역수 성질
세 분포 모두 N(0,1)에서 파생되고, 자유도↑ → 정규분포에 수렴

728x90

'수학&통계학' 카테고리의 다른 글

기술 통계량 (산포 측도) (0)	2026.05.11
기술 통계량 (중심 측도) (0)	2026.05.11
연속형 확률분포 : 정규분포 (0)	2026.05.11
연속형 확률분포 : 균일분포, 지수분포 (0)	2026.05.11
이산확률분포 : 포아송 분포 (0)	2026.05.11

구구 코스모스

연속형 확률분포 : t분포, 카이제곱 분포, F분포