이번 글에서는 t분포를 활용한 실제 검정 방법 4가지를 다룬다.
"한 집단의 평균이 특정 값인가?", "두 집단의 평균이 같은가?", "처리 전후에 변화가 있는가?", "두 변수는 관련이 있는가?" — 실무에서 가장 자주 마주치는 질문들이다.
t분포를 사용하는 이유
모집단의 표준편차 σ를 모를 때, 표본 표준편차 s를 대신 사용하면 검정 통계량이 표준정규분포(Z)가 아닌 t분포를 따른다.
- t분포는 평균 0을 중심으로 좌우 대칭이며, 자유도(ν)라는 모수 하나로 형태가 결정된다.
- 자유도가 작을수록 꼬리가 두꺼워지고(불확실성 반영), n이 커질수록 표준정규분포에 수렴한다.
- t분포 기반 검정은 "0인지 아닌지"를 판단하는 구조다. 분자에 평균 차이나 상관계수처럼 0을 중심으로 하는 통계량이 오고, 분모에 표준오차(표준편차 / 자유도 제곱근)가 온다.
① 일표본 t-검정 (One-Sample t-test)
언제 쓰는가?
하나의 변수(집단)의 평균이 미리 정해진 특정 값(μ₀)과 같은지 검정할 때 사용한다. 기준값이 이론적으로 알려져 있거나 업계 표준이 있을 때 자주 쓰인다.
가설
검정 통계량
자유도 = n−1
분자 (x̄ − μ₀): "표본 평균이 기준값에서 얼마나 떨어져 있는가?"
분모 (s/√n): 표준오차 — "표본 평균 자체의 변동성"
→ t값이 크다 = 표본 평균이 기준값에서 표준오차 대비 멀리 떨어져 있다 = 귀무가설에 불리한 증거
제조사는 배터리 평균 수명이 48시간이라고 광고한다. 소비자 단체가 25개 제품을 테스트한 결과 평균 45.2시간, 표준편차 6.4시간이었다. α = 0.05에서 광고가 사실인지 양측 검정하라.
자유도 = 25 − 1 = 24
|−2.188| = 2.188 > 2.064 → 기각역 안에 있음
② 독립표본 t-검정 (Independent Samples t-test)
언제 쓰는가?
서로 독립인 두 집단의 평균을 비교할 때 사용한다. "독립"은 두 집단이 서로 관련이 없다는 뜻으로, 두 집단의 관측치 개수가 달라도 상관없다.
예를 들어 A 지역 학생들과 B 지역 학생들의 평균 성적을 비교하거나, 남성 집단과 여성 집단의 평균 소득을 비교할 때 쓴다.
가설
검정 통계량
n₁, n₂: 두 집단의 표본 크기 | 자유도 = n₁ + n₂ − 2
위 공식은 두 집단의 분산이 같다고 가정(등분산)할 때 사용한다. 실제로는 먼저 F-검정(Levene 검정)으로 등분산 여부를 확인한다.
• 등분산이면: 위 공식(합동 표준오차 사용)
• 불등분산이면: Welch's t-test 사용 (자유도 계산 방식이 달라짐)
A 카페(n₁=16, x̄=312ml, s_x=15ml)와 B 카페(n₂=20, ȳ=305ml, s_y=12ml)의 아메리카노 평균 용량이 같은지 α=0.05에서 검정하라. (등분산 가정)
t = (312 − 305) / 4.611 = 7 / 4.611 ≈ 1.518
자유도 = 16 + 20 − 2 = 34
|1.518| = 1.518 < 2.032 → 기각역 밖
H₀를 기각하지 못한다. "두 카페의 아메리카노 평균 용량은 통계적으로 유의미한 차이가 없다."
③ 대응표본 t-검정 (Paired Samples t-test)
언제 쓰는가?
같은 대상(또는 짝지어진 대상)에 대해 두 조건을 비교할 때 사용한다. 처리 전/후 비교, 같은 사람에게 두 가지 방법을 적용한 비교가 대표적이다.
독립표본 t-검정과 달리, 두 측정값이 서로 연관되어 있다. 핵심 아이디어는 두 변수 X, Y의 차이 d = X − Y를 먼저 계산한 뒤, d의 평균이 0인지를 일표본 t-검정으로 확인하는 것이다.
→ 두 집단이 서로 다른 사람들
대응표본: "같은 사람의 전" vs "같은 사람의 후"
→ 한 사람에서 두 측정값
같은 사람을 측정하므로 집단 간 변동이 없어 더 민감한(검정력 높은) 검정이 가능하다.
가설
검정 통계량
d_i = x_i − y_i (i번째 관측치의 차이값)를 계산하고, d̄(차이값의 평균), s_d(차이값의 표준편차)를 구해서 일표본 t-검정을 적용한다.
자유도 = n−1 (쌍의 수에서 1을 뺀다)
수면 개선 앱을 8명에게 2주간 사용하게 한 후, 사용 전과 사용 후의 평균 수면 시간(시간)을 측정했다. 앱 사용이 수면 시간에 변화를 주는지 α=0.05에서 검정하라.
사용 전: 6.0 5.5 7.0 6.5 5.0 6.0 7.5 6.0
사용 후: 7.0 6.5 7.5 7.5 6.0 7.0 8.0 7.0
d = 후−전: 1.0 1.0 0.5 1.0 1.0 1.0 0.5 1.0
H₁: μ_D ≠ 0 (앱 사용 효과 있음) → 양측 검정
s_d ≈ 0.227시간 (각 d_i와 d̄의 차이 제곱합 계산)
n = 8 쌍
자유도 = 8 − 1 = 7
|10.90| >> 2.365 → H₀ 기각
"수면 앱 사용 전후 수면 시간에 통계적으로 유의미한 차이가 있다. 평균 약 0.875시간 증가."
대응된 데이터를 독립표본으로 분석하면 개인차가 오차에 포함되어 검정력이 낮아진다. 같은 사람을 반복 측정했다면 반드시 대응표본 t-검정을 써야 한다.
④ 상관분석 (Correlation Analysis)
개념
상관분석은 두 변수의 상관계수(r)를 계산하고, 그 상관계수가 통계적으로 유의미한지 검정하는 것이다. 핵심 질문은 "이 상관계수가 단순한 우연인가, 아니면 실제로 관계가 있는 것인가?"이다.
예를 들어 r = 0.4가 나왔다고 해서 바로 "관계가 있다"고 할 수 없다.
n = 5이면 r = 0.4도 우연일 수 있고, n = 1000이면 r = 0.1도 유의미할 수 있다.
→ 상관계수의 크기뿐만 아니라 표본 크기를 함께 고려해 검정해야 한다.
가설
검정 통계량
표본 상관계수 r_xy를 표준오차(σ_r)로 나누면 t분포를 따른다. 여기서 상관계수의 표준오차는 √((1 − r²_xy) / (n − 2))이다.
자유도 = n−2 (두 변수를 추정했으므로 2개를 뺀다)
두 변수 X, Y 각각의 평균을 추정하는 데 자유도를 1개씩 사용하므로, 총 2개를 뺀다.
일표본 t-검정(자유도 n−1)과 비교하면, 변수가 2개이므로 하나를 더 빼는 것이다.
학생 20명의 주간 공부 시간과 중간고사 점수를 조사했더니 표본 상관계수 r = 0.52가 나왔다. α = 0.05에서 두 변수 간에 유의미한 선형 관계가 있는지 검정하라.
H₁: ρ ≠ 0 (선형 관계 있음) → 양측 검정
= 0.52 × √18 / √(1 − 0.2704)
= 0.52 × 4.243 / √0.7296
= 2.206 / 0.854 ≈ 2.583
자유도 = 20 − 2 = 18
|2.583| = 2.583 > 2.101 → H₀ 기각
"유의수준 5%에서 공부 시간과 시험 점수 사이에 통계적으로 유의미한 양의 선형 관계가 있다 (r=0.52)."
1. 유의미한 상관 ≠ 인과관계: r이 크고 유의해도 원인-결과 관계를 뜻하지 않는다.
2. 선형 관계만 측정: 비선형 관계는 r=0에 가까울 수 있지만 관계가 없는 게 아니다.
3. 이상치에 민감: 극단값 하나가 r값을 크게 왜곡할 수 있다. 항상 산점도를 함께 확인하라.
가지 t-검정 한눈에 비교
| 구분 | 일표본 | 독립표본 | 대응표본 | 상관분석 |
|---|---|---|---|---|
| 목적 | 평균 vs 기준값 | 두 독립 집단 평균 비교 | 전후(쌍) 비교 | 선형 관계 유무 |
| 귀무가설 | μ = μ₀ | μ_x = μ_y | μ_D = 0 | ρ = 0 |
| 검정통계량 분자 | x̄ − μ₀ | x̄ − ȳ | d̄ | r_xy |
| 자유도 | n−1 | n₁+n₂−2 | n−1 (쌍 기준) | n−2 |
| 데이터 구조 | 1개 집단 | 2개 독립 집단 | 1개 집단, 2회 측정 | 2개 변수 |
| 예시 상황 | 제품 기준치 검증 | 남/녀 성적 비교 | 교육 전/후 효과 | 키-몸무게 관계 |
1. 집단이 몇 개인가?
→ 1개: 일표본 t-검정
→ 2개: 아래로 이동
2. 두 집단이 독립인가, 대응(쌍)인가?
→ 독립(다른 사람들): 독립표본 t-검정
→ 대응(같은 사람, 전후): 대응표본 t-검정
3. 두 변수의 관계(선형성)를 보고 싶다면?
→ 상관분석 검정
📌 핵심 정리
- t분포 검정의 공통 구조: 분자=0 중심 통계량, 분모=표준오차, 분포=t(자유도)
- 일표본 t: t = (x̄−μ₀)/(s/√n), 자유도 n−1. 평균 vs 기준값
- 독립표본 t: t = (x̄−ȳ)/√(s²_x/n₁+s²_y/n₂), 자유도 n₁+n₂−2
- 독립표본 전제: 등분산 여부 먼저 확인 (F-검정). 불등분산이면 Welch's t-test
- 대응표본 t: d_i = x_i − y_i 계산 후 일표본 t-검정 적용. 자유도 n−1
- 대응표본 장점: 개인차 제거 → 검정력 향상
- 상관분석: t = r√(n−2)/√(1−r²), 자유도 n−2. H₀: ρ=0
- 상관계수 유의성: r의 크기뿐 아니라 n을 함께 고려해야 함
- 공통 주의점: 유의미한 t-검정 결과 ≠ 효과가 크다. 효과 크기(Cohen's d 등) 별도 확인 권장
'수학&통계학' 카테고리의 다른 글
| 모형 평가 지표 (회귀지표, 분류지표, 비지도학습 지표) (0) | 2026.05.13 |
|---|---|
| 카이제곱(χ²) 검정, F분포 ANOVA, 비모수 검정 (0) | 2026.05.13 |
| 통계적 가설 검정 (0) | 2026.05.13 |
| 통계적 추정 (0) | 2026.05.11 |
| 데이터 변환 및 관계 분석 (0) | 2026.05.11 |