728x90
정규분포에서 파생된 세 가지 분포를 정리한다.
t분포, 카이제곱(χ²) 분포, F분포는 통계 검정에서 가장 자주 등장하는 분포들이다.
각각이 왜 필요한지, 어떻게 만들어지는지, 어떤 검정에서 쓰이는지를 하나씩 완전히 정리한다.
t분포, 카이제곱(χ²) 분포, F분포는 통계 검정에서 가장 자주 등장하는 분포들이다.
각각이 왜 필요한지, 어떻게 만들어지는지, 어떤 검정에서 쓰이는지를 하나씩 완전히 정리한다.
출발점
Z ~ N(0,1)
→
Z² 합산
χ²(k)
→
Z ÷ √(χ²/ν)
t(ν)
→
χ²/ν₁ ÷ χ²/ν₂
F(ν₁,ν₂)
세 분포 모두 표준정규분포 Z에서 파생된다
① t 분포 (Student's t-Distribution)
왜 t분포가 필요한가?
모집단이 정규분포를 따를 때, 모평균 μ를 추정하고 싶다고 하자. 표본 평균을 표준화하면 Z = (X̄ − μ) / (σ/√n) ~ N(0,1)이 된다. 그런데 모표준편차 σ를 모르는 경우가 대부분이다. 이때 σ 대신 표본표준편차 S를 쓰면 더 이상 Z 분포가 아닌 t 분포를 따른다.
❓ S를 쓰면 왜 정규분포가 안 되나?
σ는 고정된 상수지만, S는 표본마다 달라지는 확률변수다. 분모가 확률변수이므로 전체 통계량의 분포가 달라진다. 특히 n이 작을수록 S의 변동성이 커서 꼬리가 더 두꺼운 분포가 된다. 이 꼬리 두꺼운 분포가 바로 t분포다.t분포의 정의 — 어떻게 만들어지는가
정의 Z ~ N(0,1), V ~ χ²(ν) 이고 Z와 V가 독립일 때:
T = Z / √(V/ν) ~ t(ν) → 분자: 표준정규, 분모: 카이제곱 변수를 자유도로 나눈 제곱근 표본 평균 검정에서 T = (X̄ − μ) / (S/√n) ~ t(n−1)
→ 자유도 ν = n−1. S²(표본분산)이 χ²(n−1)를 따르는 것에서 유도된다.
T = Z / √(V/ν) ~ t(ν) → 분자: 표준정규, 분모: 카이제곱 변수를 자유도로 나눈 제곱근 표본 평균 검정에서 T = (X̄ − μ) / (S/√n) ~ t(n−1)
→ 자유도 ν = n−1. S²(표본분산)이 χ²(n−1)를 따르는 것에서 유도된다.
확률 밀도 함수(PDF)
f(t) = Γ((ν+1)/2) / (√(νπ) · Γ(ν/2)) · (1 + t²/ν)−(ν+1)/2
ν: 자유도(degrees of freedom) | Γ: 감마함수
−∞ < t < ∞ | ν = 1이면 코시분포(Cauchy Distribution)와 동일
−∞ < t < ∞ | ν = 1이면 코시분포(Cauchy Distribution)와 동일
t분포의 모양 — 자유도에 따른 변화

평균과 분산
평균 E[T] = 0 (ν > 1일 때) → 좌우 대칭이므로 평균은 0. ν=1(코시분포)은 평균이 정의되지 않는다. 분산 Var(T) = ν / (ν−2) (ν > 2일 때)
→ ν가 클수록 1에 가까워진다 (→ 표준정규분포의 분산 1로 수렴) → ν ≤ 2이면 분산이 무한대 또는 정의 불가 → 꼬리가 그만큼 두껍다는 의미
→ ν가 클수록 1에 가까워진다 (→ 표준정규분포의 분산 1로 수렴) → ν ≤ 2이면 분산이 무한대 또는 정의 불가 → 꼬리가 그만큼 두껍다는 의미
평균
0 (ν > 1)
대칭 분포
분산
ν / (ν−2)
ν > 2일 때 존재
표기
T ~ t(ν)
ν: 자유도
t분포의 주요 특징
- 좌우 대칭: 정규분포처럼 0 중심으로 대칭
- 두꺼운 꼬리: 정규분포보다 꼬리가 두껍다 → 극단값이 나올 확률이 더 높다
- 자유도 ν → ∞이면 t분포 → 표준정규분포 N(0,1)로 수렴
- ν = 1이면 코시(Cauchy) 분포: 평균·분산 모두 정의 안 됨
언제 t분포를 쓰는가?
| 상황 | 검정통계량 | 자유도 |
|---|---|---|
| 단일 모평균 검정 (σ 모름) | T = (X̄−μ₀) / (S/√n) | n−1 |
| 두 독립 표본 평균 차이 검정 | T = (X̄₁−X̄₂) / Sp√(1/n₁+1/n₂) | n₁+n₂−2 |
| 대응 표본(쌍체) 검정 | T = D̄ / (S_D/√n) | n−1 |
| 회귀계수 유의성 검정 | T = β̂ / SE(β̂) | n−k−1 |
💡 자유도(Degrees of Freedom)란?
데이터 n개에서 통계량 1개(예: 평균)를 추정하면 자유롭게 움직일 수 있는 데이터 수가 n−1개가 된다.
평균이 고정되면 n−1개의 값만 자유롭고, 나머지 1개는 자동으로 결정된다.
자유도가 클수록 추정의 불확실성이 낮아지므로 분포가 정규분포에 가까워진다.
데이터 n개에서 통계량 1개(예: 평균)를 추정하면 자유롭게 움직일 수 있는 데이터 수가 n−1개가 된다.
평균이 고정되면 n−1개의 값만 자유롭고, 나머지 1개는 자동으로 결정된다.
자유도가 클수록 추정의 불확실성이 낮아지므로 분포가 정규분포에 가까워진다.
반응형
② 카이제곱 분포 (χ² Distribution)
왜 카이제곱 분포가 필요한가?
평균이 아니라 분산을 추정하거나 검정할 때, 또는 범주형 데이터의 적합도를 검정할 때 등장한다. 분산은 편차의 제곱합으로 계산되기 때문에 항상 양수이고, 카이제곱 분포도 마찬가지로 0 이상의 값만 가진다.
카이제곱 분포의 정의 — 어떻게 만들어지는가
정의 Z₁, Z₂, …, Zₖ 가 서로 독립인 표준정규 확률변수일 때:
χ² = Z₁² + Z₂² + ··· + Zₖ² ~ χ²(k) → 표준정규 확률변수의 제곱합. 자유도 k는 Z의 개수. 표본분산과의 관계 표본분산 S²을 사용하면:
(n−1)S² / σ² ~ χ²(n−1) → 이 성질이 모분산 추정과 분산 검정의 이론적 기반이다.
χ² = Z₁² + Z₂² + ··· + Zₖ² ~ χ²(k) → 표준정규 확률변수의 제곱합. 자유도 k는 Z의 개수. 표본분산과의 관계 표본분산 S²을 사용하면:
(n−1)S² / σ² ~ χ²(n−1) → 이 성질이 모분산 추정과 분산 검정의 이론적 기반이다.
확률 밀도 함수(PDF)
f(x) = x(k/2−1) · e−x/2 / (2k/2 · Γ(k/2)) , x > 0
k: 자유도 | Γ: 감마함수 | x ≤ 0이면 f(x) = 0
자유도에 따른 분포 형태

평균과 분산
평균 E[χ²] = k → Z²의 기댓값 = E[Z²] = Var(Z) = 1 이므로, k개 합산하면 k 분산 Var(χ²) = 2k → Z²의 분산 = E[Z⁴] − (E[Z²])² = 3 − 1 = 2 이므로, k개 합산하면 2k 비대칭도 왜도(Skewness) = √(8/k) → k가 클수록 왜도가 0에 가까워져 정규분포에 근접
평균
E[χ²] = k
자유도 그 자체
분산
Var(χ²) = 2k
자유도의 2배
표기
χ² ~ χ²(k)
k: 자유도
카이제곱 분포의 가법성
X ~ χ²(m), Y ~ χ²(n) 이고 독립이면:
X + Y ~ χ²(m+n) → 독립인 카이제곱 변수의 합은 자유도를 더한 카이제곱 분포를 따른다.
X + Y ~ χ²(m+n) → 독립인 카이제곱 변수의 합은 자유도를 더한 카이제곱 분포를 따른다.
언제 카이제곱 분포를 쓰는가?
| 상황 | 검정통계량 | 자유도 |
|---|---|---|
| 모분산 검정 | χ² = (n−1)S²/σ₀² | n−1 |
| 적합도 검정 (Goodness of Fit) | χ² = Σ(O−E)²/E | 범주수−1 |
| 독립성 검정 (교차표) | χ² = Σ(O−E)²/E | (행−1)(열−1) |
| 동질성 검정 | χ² = Σ(O−E)²/E | (행−1)(열−1) |
💡 적합도 검정의 (O−E)²/E 공식 이해
O: 관측 빈도(Observed), E: 기댓값 빈도(Expected)
차이(O−E)를 제곱한 뒤 E로 나누는 이유: E가 클수록 차이도 클 수 있으므로 상대적 크기로 비교
이 값이 클수록 관측값이 기대값에서 크게 벗어난 것 → χ² 통계량이 크면 귀무가설 기각
O: 관측 빈도(Observed), E: 기댓값 빈도(Expected)
차이(O−E)를 제곱한 뒤 E로 나누는 이유: E가 클수록 차이도 클 수 있으므로 상대적 크기로 비교
이 값이 클수록 관측값이 기대값에서 크게 벗어난 것 → χ² 통계량이 크면 귀무가설 기각
📌 카이제곱 분포의 특징 요약
• 항상 비음수(x ≥ 0) — 제곱의 합이므로
• 오른쪽으로 치우친 분포 (positive skew)
• k가 클수록 정규분포에 근접
• k=2이면 지수분포와 동일 (λ=1/2인 지수분포)
• 항상 비음수(x ≥ 0) — 제곱의 합이므로
• 오른쪽으로 치우친 분포 (positive skew)
• k가 클수록 정규분포에 근접
• k=2이면 지수분포와 동일 (λ=1/2인 지수분포)
③ F 분포 (F-Distribution)
왜 F분포가 필요한가?
두 집단의 분산이 같은지 비교하거나, 세 집단 이상의 평균이 모두 같은지(분산분석, ANOVA) 검정할 때 사용한다. F분포는 두 카이제곱 분포의 비율로 만들어진다.
F분포의 정의 — 어떻게 만들어지는가
정의 U ~ χ²(d₁), V ~ χ²(d₂) 이고 독립일 때:
F = (U/d₁) / (V/d₂) ~ F(d₁, d₂) → 각 카이제곱 변수를 자유도로 나눈 뒤 비율을 취한다. 분산 비교에서 S₁², S₂²이 각각 n₁, n₂개 표본의 분산이면:
F = S₁² / S₂² ~ F(n₁−1, n₂−1) → 두 표본분산의 비율이 F분포를 따른다. ANOVA에서 F = (집단 간 분산 MSB) / (집단 내 분산 MSW)
→ 집단 간 변동이 집단 내 변동보다 충분히 크면 F값이 커져 평균 차이가 유의하다고 판단
F = (U/d₁) / (V/d₂) ~ F(d₁, d₂) → 각 카이제곱 변수를 자유도로 나눈 뒤 비율을 취한다. 분산 비교에서 S₁², S₂²이 각각 n₁, n₂개 표본의 분산이면:
F = S₁² / S₂² ~ F(n₁−1, n₂−1) → 두 표본분산의 비율이 F분포를 따른다. ANOVA에서 F = (집단 간 분산 MSB) / (집단 내 분산 MSW)
→ 집단 간 변동이 집단 내 변동보다 충분히 크면 F값이 커져 평균 차이가 유의하다고 판단
확률 밀도 함수(PDF)
f(x) = √((d₁x)d₁ · d₂d₂ / (d₁x+d₂)d₁+d₂) / (x · B(d₁/2, d₂/2)) , x > 0
d₁: 분자 자유도 | d₂: 분모 자유도
B: 베타함수 | 실제로는 F표나 소프트웨어를 활용해 계산
B: 베타함수 | 실제로는 F표나 소프트웨어를 활용해 계산
자유도에 따른 분포 형태

평균과 분산
평균 E[F] = d₂ / (d₂ − 2) (d₂ > 2일 때) → 분모 자유도 d₂만으로 결정된다. d₂가 클수록 1에 가까워진다. 분산 Var(F) = 2d₂²(d₁+d₂−2) / (d₁(d₂−2)²(d₂−4)) (d₂ > 4일 때) → 공식이 복잡하므로 수치 계산은 소프트웨어를 활용한다.
평균
d₂ / (d₂−2)
d₂ > 2일 때
표기
F ~ F(d₁, d₂)
분자·분모 자유도 순서 중요
F분포의 중요한 성질
역수 성질 X ~ F(d₁, d₂) 이면 1/X ~ F(d₂, d₁) → 자유도 순서만 뒤집히면 역수가 된다. F표 읽을 때 활용. t분포와의 관계 T ~ t(ν) 이면 T² ~ F(1, ν) → t분포의 제곱은 F(1, ν)를 따른다. 양측 t검정 = 분자 자유도 1인 F검정. 분자 자유도가 1이면 F(1, ν) = t(ν)² → 두 집단 평균 비교를 t검정으로 하든 ANOVA로 하든 결과가 동일한 이유.
언제 F분포를 쓰는가?
| 상황 | 검정통계량 | 자유도 |
|---|---|---|
| 두 모분산 비교 (등분산 검정) | F = S₁² / S₂² | F(n₁−1, n₂−1) |
| 일원분산분석 (One-way ANOVA) | F = MSB / MSW | F(k−1, N−k) |
| 이원분산분석 (Two-way ANOVA) | F = MS_factor / MS_error | 각 요인별 |
| 회귀모형 유의성 검정 | F = MSR / MSE | F(k, n−k−1) |
💡 ANOVA에서 F값이 의미하는 것
F = MSB(Between) / MSW(Within)
• MSB(집단 간 평균제곱): 집단 평균들 사이의 변동 — 처리 효과 + 오차
• MSW(집단 내 평균제곱): 각 집단 내부의 변동 — 순수 오차
→ F가 크다 = 집단 간 변동이 집단 내 변동보다 크다 = 집단 평균에 유의미한 차이가 있다
→ F ≈ 1 이면 집단 간 차이가 오차 수준에 불과하다
F = MSB(Between) / MSW(Within)
• MSB(집단 간 평균제곱): 집단 평균들 사이의 변동 — 처리 효과 + 오차
• MSW(집단 내 평균제곱): 각 집단 내부의 변동 — 순수 오차
→ F가 크다 = 집단 간 변동이 집단 내 변동보다 크다 = 집단 평균에 유의미한 차이가 있다
→ F ≈ 1 이면 집단 간 차이가 오차 수준에 불과하다
⚠️ F분포 자유도 순서에 주의
F(d₁, d₂)에서 d₁은 분자(numerator) 자유도, d₂는 분모(denominator) 자유도다.
F표를 읽을 때 순서를 바꾸면 완전히 다른 임계값이 나온다.
역수 성질에 의해 F(d₁,d₂)와 F(d₂,d₁)는 서로 역수 관계이므로 헷갈리면 안 된다.
F(d₁, d₂)에서 d₁은 분자(numerator) 자유도, d₂는 분모(denominator) 자유도다.
F표를 읽을 때 순서를 바꾸면 완전히 다른 임계값이 나온다.
역수 성질에 의해 F(d₁,d₂)와 F(d₂,d₁)는 서로 역수 관계이므로 헷갈리면 안 된다.
④ 세 분포 완전 비교
| 구분 | t 분포 | χ² 분포 | F 분포 |
|---|---|---|---|
| 정의 | Z / √(χ²/ν) | ΣZᵢ² | (χ²/d₁) / (χ²/d₂) |
| 범위 | −∞ ~ ∞ | 0 ~ ∞ | 0 ~ ∞ |
| 모양 | 좌우 대칭, 종 모양 | 오른쪽 치우침 | 오른쪽 치우침 |
| 모수 | 자유도 ν | 자유도 k | 자유도 d₁, d₂ |
| 평균 | 0 | k | d₂/(d₂−2) |
| 분산 | ν/(ν−2) | 2k | 복잡한 식 |
| n→∞ 극한 | N(0,1) | N(k, 2k) 근사 | N 근사 |
| 주요 검정 | 평균 검정 | 분산, 범주 검정 | 분산 비교, ANOVA |
| 기반 분포 | N(0,1) + χ² | N(0,1)²의 합 | χ² + χ² |
📌 세 분포의 공통점
1. 모두 표준정규분포 N(0,1)에서 파생된다
2. 모두 자유도(ν, k, d₁/d₂)라는 모수를 가진다
3. 자유도가 커질수록 모두 정규분포에 근접한다
4. 모두 추정과 가설 검정에서 핵심적으로 사용된다
1. 모두 표준정규분포 N(0,1)에서 파생된다
2. 모두 자유도(ν, k, d₁/d₂)라는 모수를 가진다
3. 자유도가 커질수록 모두 정규분포에 근접한다
4. 모두 추정과 가설 검정에서 핵심적으로 사용된다
📌 핵심 정리
- t분포: σ 모를 때 평균 검정 → T = (X̄−μ)/(S/√n) ~ t(n−1)
- t 평균=0, 분산=ν/(ν−2) | 꼬리 두껍고 ν→∞이면 Z로 수렴
- χ²분포: 표준정규 제곱합 → χ² = Z₁²+…+Zₖ² ~ χ²(k)
- χ² 평균=k, 분산=2k | 분산검정·적합도·독립성 검정에 사용
- (n−1)S²/σ² ~ χ²(n−1): 표본분산과 카이제곱의 핵심 연결고리
- F분포: χ² 비율 → F = (χ²/d₁)/(χ²/d₂) ~ F(d₁, d₂)
- F 평균=d₂/(d₂−2) | 분산비교·ANOVA·회귀모형 검정에 사용
- T² ~ F(1,ν): t분포와 F분포의 관계
- 1/F(d₁,d₂) ~ F(d₂,d₁): F분포 역수 성질
- 세 분포 모두 N(0,1)에서 파생되고, 자유도↑ → 정규분포에 수렴
728x90
'수학&통계학' 카테고리의 다른 글
| 기술 통계량 (산포 측도) (0) | 2026.05.11 |
|---|---|
| 기술 통계량 (중심 측도) (0) | 2026.05.11 |
| 연속형 확률분포 : 정규분포 (0) | 2026.05.11 |
| 연속형 확률분포 : 균일분포, 지수분포 (0) | 2026.05.11 |
| 이산확률분포 : 포아송 분포 (0) | 2026.05.11 |