t분포를 활용한 가설 검정

728x90

이전 글에서 가설 검정의 개념과 논리 구조를 배웠다.
이번 글에서는 t분포를 활용한 실제 검정 방법 4가지를 다룬다.
"한 집단의 평균이 특정 값인가?", "두 집단의 평균이 같은가?", "처리 전후에 변화가 있는가?", "두 변수는 관련이 있는가?" — 실무에서 가장 자주 마주치는 질문들이다.

t분포를 사용하는 이유

모집단의 표준편차 σ를 모를 때, 표본 표준편차 s를 대신 사용하면 검정 통계량이 표준정규분포(Z)가 아닌 t분포를 따른다.

t분포는 평균 0을 중심으로 좌우 대칭이며, 자유도(ν)라는 모수 하나로 형태가 결정된다.
자유도가 작을수록 꼬리가 두꺼워지고(불확실성 반영), n이 커질수록 표준정규분포에 수렴한다.
t분포 기반 검정은 "0인지 아닌지"를 판단하는 구조다. 분자에 평균 차이나 상관계수처럼 0을 중심으로 하는 통계량이 오고, 분모에 표준오차(표준편차 / 자유도 제곱근)가 온다.

①

일표본 t-검정

1개 변수의 평균이 특정 값(μ₀)과 같은지 검정

②

독립표본 t-검정

서로 독립인 두 집단의 평균이 같은지 검정

③

대응표본 t-검정

같은 대상의 처리 전·후 차이가 0인지 검정

④

상관분석 검정

두 변수의 상관계수가 0인지(관계 없는지) 검정

① 일표본 t-검정 (One-Sample t-test)

언제 쓰는가?

하나의 변수(집단)의 평균이 미리 정해진 특정 값(μ₀)과 같은지 검정할 때 사용한다. 기준값이 이론적으로 알려져 있거나 업계 표준이 있을 때 자주 쓰인다.

가설

H₀: μ_x = μ₀

X의 평균은 μ₀이다 (차이가 없다: μ_x − μ₀ = 0)

H₁: μ_x ≠ μ₀

X의 평균은 μ₀가 아니다 (차이가 있다: μ_x − μ₀ ≠ 0)

검정 통계량

t = (x̄ − μ₀) / (s / √n) ~ t(n−1)

x̄: 표본 평균 | μ₀: 귀무가설의 기준값 | s: 표본 표준편차 | n: 표본 크기
자유도 = n−1

💡 공식 구조 이해하기
분자 (x̄ − μ₀): "표본 평균이 기준값에서 얼마나 떨어져 있는가?"
분모 (s/√n): 표준오차 — "표본 평균 자체의 변동성"
→ t값이 크다 = 표본 평균이 기준값에서 표준오차 대비 멀리 떨어져 있다 = 귀무가설에 불리한 증거

📌 예시: 스마트폰 배터리 광고 수명 검증

제조사는 배터리 평균 수명이 48시간이라고 광고한다. 소비자 단체가 25개 제품을 테스트한 결과 평균 45.2시간, 표준편차 6.4시간이었다. α = 0.05에서 광고가 사실인지 양측 검정하라.

① 가설

H₀: μ = 48시간 H₁: μ ≠ 48시간

② 검정 통계량

t = (45.2 − 48) / (6.4 / √25) = −2.8 / 1.28 = −2.188
자유도 = 25 − 1 = 24

③ 기각역 (양측, α=0.05)

t표에서 t(0.025, 24) = 2.064
|−2.188| = 2.188 > 2.064 → 기각역 안에 있음

④ 결론

H₀ 기각. "유의수준 5%에서 실제 배터리 수명은 광고된 48시간과 통계적으로 유의미한 차이가 있다."

② 독립표본 t-검정 (Independent Samples t-test)

언제 쓰는가?

서로 독립인 두 집단의 평균을 비교할 때 사용한다. "독립"은 두 집단이 서로 관련이 없다는 뜻으로, 두 집단의 관측치 개수가 달라도 상관없다.

예를 들어 A 지역 학생들과 B 지역 학생들의 평균 성적을 비교하거나, 남성 집단과 여성 집단의 평균 소득을 비교할 때 쓴다.

가설

H₀: μ_x = μ_y

X와 Y의 평균이 같다 (μ_x − μ_y = 0)

H₁: μ_x ≠ μ_y

X와 Y의 평균이 다르다 (μ_x − μ_y ≠ 0)

검정 통계량

t = (x̄ − ȳ) / √(s²_x/n₁ + s²_y/n₂) ~ t(n₁ + n₂ − 2)

x̄, ȳ: 두 집단의 표본 평균 | s²_x, s²_y: 두 집단의 표본 분산
n₁, n₂: 두 집단의 표본 크기 | 자유도 = n₁ + n₂ − 2

💡 등분산 가정과 불등분산 검정
위 공식은 두 집단의 분산이 같다고 가정(등분산)할 때 사용한다. 실제로는 먼저 F-검정(Levene 검정)으로 등분산 여부를 확인한다.
• 등분산이면: 위 공식(합동 표준오차 사용)
• 불등분산이면: Welch's t-test 사용 (자유도 계산 방식이 달라짐)

📌 예시: 두 카페의 아메리카노 용량 비교

A 카페(n₁=16, x̄=312ml, s_x=15ml)와 B 카페(n₂=20, ȳ=305ml, s_y=12ml)의 아메리카노 평균 용량이 같은지 α=0.05에서 검정하라. (등분산 가정)

① 가설

H₀: μ_A = μ_B H₁: μ_A ≠ μ_B

② 검정 통계량

분모 = √(15²/16 + 12²/20) = √(225/16 + 144/20) = √(14.0625 + 7.2) = √21.26 ≈ 4.611
t = (312 − 305) / 4.611 = 7 / 4.611 ≈ 1.518
자유도 = 16 + 20 − 2 = 34

③ 판단

t(0.025, 34) ≈ 2.032
|1.518| = 1.518 < 2.032 → 기각역 밖
H₀를 기각하지 못한다. "두 카페의 아메리카노 평균 용량은 통계적으로 유의미한 차이가 없다."

③ 대응표본 t-검정 (Paired Samples t-test)

언제 쓰는가?

같은 대상(또는 짝지어진 대상)에 대해 두 조건을 비교할 때 사용한다. 처리 전/후 비교, 같은 사람에게 두 가지 방법을 적용한 비교가 대표적이다.

독립표본 t-검정과 달리, 두 측정값이 서로 연관되어 있다. 핵심 아이디어는 두 변수 X, Y의 차이 d = X − Y를 먼저 계산한 뒤, d의 평균이 0인지를 일표본 t-검정으로 확인하는 것이다.

독립표본과의 차이

독립표본: "A그룹 평균" vs "B그룹 평균"
→ 두 집단이 서로 다른 사람들

대응표본: "같은 사람의 전" vs "같은 사람의 후"
→ 한 사람에서 두 측정값

대응표본의 장점

개인 간 차이(개인차)가 제거된다.
같은 사람을 측정하므로 집단 간 변동이 없어 더 민감한(검정력 높은) 검정이 가능하다.

가설

H₀: μ_D = 0

X(전)와 Y(후)의 차이의 평균이 0이다. 전후 차이가 없다.

H₁: μ_D ≠ 0

X와 Y의 차이의 평균이 0이 아니다. 전후 차이가 있다.

검정 통계량

d_i = x_i − y_i (i번째 관측치의 차이값)를 계산하고, d̄(차이값의 평균), s_d(차이값의 표준편차)를 구해서 일표본 t-검정을 적용한다.

t = d̄ / (s_d / √n) ~ t(n−1)

d̄: 차이값(d_i = x_i − y_i)의 평균 | s_d: 차이값의 표준편차 | n: 쌍의 수
자유도 = n−1 (쌍의 수에서 1을 뺀다)

📌 예시: 수면 앱 사용 전후 수면 시간 변화

수면 개선 앱을 8명에게 2주간 사용하게 한 후, 사용 전과 사용 후의 평균 수면 시간(시간)을 측정했다. 앱 사용이 수면 시간에 변화를 주는지 α=0.05에서 검정하라.

데이터

사용자: 1 2 3 4 5 6 7 8
사용 전: 6.0 5.5 7.0 6.5 5.0 6.0 7.5 6.0
사용 후: 7.0 6.5 7.5 7.5 6.0 7.0 8.0 7.0
d = 후−전: 1.0 1.0 0.5 1.0 1.0 1.0 0.5 1.0

① 가설

H₀: μ_D = 0 (앱 사용 효과 없음)
H₁: μ_D ≠ 0 (앱 사용 효과 있음) → 양측 검정

② d 통계량

d̄ = (1.0+1.0+0.5+1.0+1.0+1.0+0.5+1.0)/8 = 7.0/8 = 0.875시간
s_d ≈ 0.227시간 (각 d_i와 d̄의 차이 제곱합 계산)
n = 8 쌍

③ 검정 통계량

t = 0.875 / (0.227 / √8) = 0.875 / 0.0803 ≈ 10.90
자유도 = 8 − 1 = 7

④ 판단

t(0.025, 7) = 2.365
|10.90| >> 2.365 → H₀ 기각
"수면 앱 사용 전후 수면 시간에 통계적으로 유의미한 차이가 있다. 평균 약 0.875시간 증가."

⚠️ 대응표본 vs 독립표본 — 잘못 선택하면?
대응된 데이터를 독립표본으로 분석하면 개인차가 오차에 포함되어 검정력이 낮아진다. 같은 사람을 반복 측정했다면 반드시 대응표본 t-검정을 써야 한다.

④ 상관분석 (Correlation Analysis)

개념

상관분석은 두 변수의 상관계수(r)를 계산하고, 그 상관계수가 통계적으로 유의미한지 검정하는 것이다. 핵심 질문은 "이 상관계수가 단순한 우연인가, 아니면 실제로 관계가 있는 것인가?"이다.

💡 상관계수 계산과 유의성 검정은 다른 단계다
예를 들어 r = 0.4가 나왔다고 해서 바로 "관계가 있다"고 할 수 없다.
n = 5이면 r = 0.4도 우연일 수 있고, n = 1000이면 r = 0.1도 유의미할 수 있다.
→ 상관계수의 크기뿐만 아니라 표본 크기를 함께 고려해 검정해야 한다.

가설

H₀: ρ_xy = 0

두 변수는 선형 관계가 없다 (모상관계수 = 0)

H₁: ρ_xy ≠ 0

두 변수는 선형 관계가 있다 (모상관계수 ≠ 0)

검정 통계량

표본 상관계수 r_xy를 표준오차(σ_r)로 나누면 t분포를 따른다. 여기서 상관계수의 표준오차는 √((1 − r²_xy) / (n − 2))이다.

t = r_xy / σ_r = r_xy · √(n−2) / √(1 − r²_xy) ~ t(n−2)

r_xy: 표본 상관계수 | n: 관측치 수
자유도 = n−2 (두 변수를 추정했으므로 2개를 뺀다)

💡 왜 자유도가 n−2인가?
두 변수 X, Y 각각의 평균을 추정하는 데 자유도를 1개씩 사용하므로, 총 2개를 뺀다.
일표본 t-검정(자유도 n−1)과 비교하면, 변수가 2개이므로 하나를 더 빼는 것이다.

📌 예시: 공부 시간과 시험 점수의 상관관계 검정

학생 20명의 주간 공부 시간과 중간고사 점수를 조사했더니 표본 상관계수 r = 0.52가 나왔다. α = 0.05에서 두 변수 간에 유의미한 선형 관계가 있는지 검정하라.

① 가설

H₀: ρ = 0 (공부 시간과 시험 점수는 선형 관계 없음)
H₁: ρ ≠ 0 (선형 관계 있음) → 양측 검정

② 검정 통계량

t = 0.52 × √(20−2) / √(1 − 0.52²)
= 0.52 × √18 / √(1 − 0.2704)
= 0.52 × 4.243 / √0.7296
= 2.206 / 0.854 ≈ 2.583
자유도 = 20 − 2 = 18

③ 판단

t(0.025, 18) = 2.101
|2.583| = 2.583 > 2.101 → H₀ 기각
"유의수준 5%에서 공부 시간과 시험 점수 사이에 통계적으로 유의미한 양의 선형 관계가 있다 (r=0.52)."

⚠️ 상관분석 결과 해석 시 주의점
1. 유의미한 상관 ≠ 인과관계: r이 크고 유의해도 원인-결과 관계를 뜻하지 않는다.
2. 선형 관계만 측정: 비선형 관계는 r=0에 가까울 수 있지만 관계가 없는 게 아니다.
3. 이상치에 민감: 극단값 하나가 r값을 크게 왜곡할 수 있다. 항상 산점도를 함께 확인하라.

가지 t-검정 한눈에 비교

구분	일표본	독립표본	대응표본	상관분석
목적	평균 vs 기준값	두 독립 집단 평균 비교	전후(쌍) 비교	선형 관계 유무
귀무가설	μ = μ₀	μ_x = μ_y	μ_D = 0	ρ = 0
검정통계량 분자	x̄ − μ₀	x̄ − ȳ	d̄	r_xy
자유도	n−1	n₁+n₂−2	n−1 (쌍 기준)	n−2
데이터 구조	1개 집단	2개 독립 집단	1개 집단, 2회 측정	2개 변수
예시 상황	제품 기준치 검증	남/녀 성적 비교	교육 전/후 효과	키-몸무게 관계

📌 어떤 검정을 선택해야 할까? — 결정 기준
1. 집단이 몇 개인가?
   → 1개: 일표본 t-검정
   → 2개: 아래로 이동

2. 두 집단이 독립인가, 대응(쌍)인가?
   → 독립(다른 사람들): 독립표본 t-검정
   → 대응(같은 사람, 전후): 대응표본 t-검정

3. 두 변수의 관계(선형성)를 보고 싶다면?
   → 상관분석 검정

📌 핵심 정리

t분포 검정의 공통 구조: 분자=0 중심 통계량, 분모=표준오차, 분포=t(자유도)
일표본 t: t = (x̄−μ₀)/(s/√n), 자유도 n−1. 평균 vs 기준값
독립표본 t: t = (x̄−ȳ)/√(s²_x/n₁+s²_y/n₂), 자유도 n₁+n₂−2
독립표본 전제: 등분산 여부 먼저 확인 (F-검정). 불등분산이면 Welch's t-test
대응표본 t: d_i = x_i − y_i 계산 후 일표본 t-검정 적용. 자유도 n−1
대응표본 장점: 개인차 제거 → 검정력 향상
상관분석: t = r√(n−2)/√(1−r²), 자유도 n−2. H₀: ρ=0
상관계수 유의성: r의 크기뿐 아니라 n을 함께 고려해야 함
공통 주의점: 유의미한 t-검정 결과 ≠ 효과가 크다. 효과 크기(Cohen's d 등) 별도 확인 권장

728x90

'수학&통계학' 카테고리의 다른 글

모형 평가 지표 (회귀지표, 분류지표, 비지도학습 지표) (0)	2026.05.13
카이제곱(χ²) 검정, F분포 ANOVA, 비모수 검정 (0)	2026.05.13
통계적 가설 검정 (0)	2026.05.13
통계적 추정 (0)	2026.05.11
데이터 변환 및 관계 분석 (0)	2026.05.11

구구 코스모스

t분포를 활용한 가설 검정

t분포를 사용하는 이유

① 일표본 t-검정 (One-Sample t-test)

언제 쓰는가?

가설

검정 통계량

② 독립표본 t-검정 (Independent Samples t-test)

언제 쓰는가?

가설

검정 통계량

③ 대응표본 t-검정 (Paired Samples t-test)

언제 쓰는가?

가설

검정 통계량

④ 상관분석 (Correlation Analysis)

개념

가설

검정 통계량

가지 t-검정 한눈에 비교

📌 핵심 정리

'수학&통계학' 카테고리의 다른 글

티스토리툴바

t분포를 활용한 가설 검정

t분포를 사용하는 이유

① 일표본 t-검정 (One-Sample t-test)

언제 쓰는가?

가설

검정 통계량

② 독립표본 t-검정 (Independent Samples t-test)

언제 쓰는가?

가설

검정 통계량

③ 대응표본 t-검정 (Paired Samples t-test)

언제 쓰는가?

가설

검정 통계량

④ 상관분석 (Correlation Analysis)

개념

가설

검정 통계량

가지 t-검정 한눈에 비교

📌 핵심 정리

'수학&통계학' 카테고리의 다른 글

관련글

티스토리툴바