이런 질문에 답하려면 데이터를 기반으로 통계적 판단을 내려야 한다.
이것이 통계적 가설 검정(Statistical Hypothesis Test)이다.
이번 글에서는 가설 검정의 논리 구조와 핵심 개념들을 처음 접하는 사람도 이해할 수 있도록 풀어 설명한다.
1. 가설 검정이란?
가설 검정은 모집단에 대한 어떤 주장(가설)이 맞는지 틀린지를 표본 데이터를 근거로 확률적으로 판단하는 과정이다.
핵심은 "확률적"이라는 점이다. 데이터를 아무리 많이 모아도 모집단 전체를 볼 수는 없기 때문에, 가설 검정은 항상 일정 확률로 틀릴 가능성을 안고 판단을 내린다.
재판에서 피고는 "무죄 추정의 원칙"에 따라 증거가 충분할 때만 유죄 판결을 받는다.
가설 검정도 마찬가지다. 기존 주장(귀무가설)이 참이라고 보고 시작해서, 데이터가 충분히 강한 증거를 제시할 때만 귀무가설을 기각한다.
→ "증거가 불충분하면 무죄(귀무가설 채택)"가 기본 원칙이다.
2. 귀무가설과 대립가설
가설 검정에서는 항상 두 가지 가설을 세운다. 이 두 가설은 서로 반대되며, 둘 중 하나만 참이다.
가설의 H에 없다는 의미의 0을 붙여 H₀로 표현한다.
기본 전제: 검정은 H₀가 참이라고 가정하고 시작한다.
귀무가설과 정반대의 내용을 담으며 H₁ 또는 Hₐ로 표현한다.
검정을 통해 증명하고자 하는 주장이 여기 들어간다.
수학에서 어떤 명제가 항상 참임을 증명하는 것보다, 그 반대 명제가 거짓임을 보이는 것(귀류법)이 훨씬 쉬운 경우가 많다.
통계적 증명도 마찬가지다. "효과가 있다"를 직접 증명하기보다 "효과가 없다는 가정 아래 이런 데이터가 나올 확률이 매우 낮다"는 논리로 접근한다.
가설 설정 예시를 몇 가지 보자.
- 신제품 배터리 수명 검정
H₀: 신제품 배터리의 평균 수명은 기존 제품(24시간)과 같다 (μ = 24)
H₁: 신제품 배터리의 평균 수명은 기존 제품과 다르다 (μ ≠ 24) - 온라인 광고 클릭률 검정
H₀: 새 광고 디자인의 클릭률은 기존 클릭률(3%)과 같다 (p = 0.03)
H₁: 새 광고 디자인의 클릭률은 기존보다 높다 (p > 0.03) - 두 그룹 평균 비교
H₀: A 학습법과 B 학습법의 평균 시험 점수 차이는 없다 (μA = μB)
H₁: 두 학습법의 평균 시험 점수는 다르다 (μA ≠ μB)
귀무가설과 대립가설은 데이터를 보기 전에 미리 설정해야 한다. 데이터를 보고 나서 유리한 방향으로 가설을 바꾸는 것은 통계적으로 심각한 오류(HARKing: Hypothesizing After Results are Known)다.
3. 유의확률 (p-value)
p값은 가설 검정에서 가장 중요하고 가장 많이 오해받는 개념이다. 정확한 정의부터 살펴보자.
p값 = "귀무가설(H₀)이 참이라는 가정 아래, 현재 데이터에서 계산된 검정 통계량과 같거나 더 극단적인 값이 나올 확률"
동전이 공정하다(H₀: p=0.5)고 가정하자. 동전을 10번 던져 9번 앞면이 나왔다.
이 결과처럼 극단적이거나 더 극단적인 결과(9번 또는 10번 앞면)가 나올 확률을 계산한다.
이 확률이 바로 p값이다.
p값이 작다 → "공정한 동전이라면 이런 결과가 나오기 어렵다"
→ 귀무가설(공정한 동전)을 의심할 근거가 생긴다.
p값의 의미를 범위별로 정리하면:
- p값이 1에 가까울수록: 귀무가설이 참일 때도 이런 데이터가 충분히 나올 수 있다. 즉, 데이터가 귀무가설을 반박하지 않는다.
- p값이 0에 가까울수록: 귀무가설이 참이라면 이런 데이터가 나오기 매우 어렵다. 즉, 귀무가설이 잘못되었을 가능성이 높다 → 대립가설을 지지하게 된다.
① p값은 "귀무가설이 참일 확률"이 아니다
→ p값은 "H₀가 참이라는 가정 아래 계산된 조건부 확률"이다.
② p값이 작다고 효과가 크다는 뜻이 아니다
→ 표본이 크면 아주 미세한 차이도 작은 p값을 만들어낸다. 실질적 유의미성은 별도로 판단해야 한다.
③ p값이 크다고 귀무가설이 증명된 것이 아니다
→ "증거 불충분"일 뿐, 귀무가설이 참이라는 증명이 아니다.
4. 검정 통계량 (Test Statistics)
가설 검정에서 판단의 근거가 되는 숫자를 검정 통계량이라고 한다. 표본 데이터를 특정 공식으로 변환해 계산하며, 이 값이 얼마나 극단적인지를 확률분포를 통해 p값으로 변환한다.
검정 통계량의 종류는 검정 목적에 따라 다르다.
- Z 통계량: 모분산을 알거나 n이 클 때 모평균 검정. Z ~ N(0,1)
- t 통계량: 모분산을 모르고 n이 작을 때 평균 검정. t ~ t(n−1)
- χ² 통계량: 분산 검정, 적합도 검정, 독립성 검정
- F 통계량: 두 분산 비교(등분산 검정), 분산분석(ANOVA)
예를 들어 두 변수의 상관관계를 검정할 때는 아래 t 통계량을 사용한다. (r: 표본 상관계수, n: 표본 크기)
자유도 = n−2
5. 유의수준 (Significance Level, α)
p값만으로는 귀무가설을 기각할지 말지 결정하기 어렵다. "얼마나 낮은 p값이면 귀무가설을 기각하겠다"는 기준을 미리 정해야 하는데, 이 기준값을 유의수준(α, alpha)이라고 한다.
- p값 < α이면 → H₀를 기각, H₁을 채택
- p값 ≥ α이면 → H₀를 기각하지 않음 (H₁을 채택하지 못함)
일반적으로 α = 0.05(5%)를 가장 많이 사용하지만, 이것은 관습이지 절대적 기준이 아니다. 의학 임상시험처럼 중요한 결정일수록 α = 0.01(1%)처럼 더 엄격한 기준을 쓰기도 하고, 탐색적 분석에서는 α = 0.10(10%)을 쓰기도 한다.
α = 0.05는 "귀무가설이 실제로 참인데도 잘못 기각할 확률을 5% 이하로 허용한다"는 뜻이다.
즉, 100번 검정하면 평균 5번은 실제로 효과가 없는데도 "효과 있다"고 잘못 결론 내릴 수 있다.
이것이 바로 뒤에서 다룰 1종 오류다.
통계에서 H₀를 기각하지 못했을 때 "H₀를 채택한다"는 표현은 엄밀히는 옳지 않다.
증거가 부족해 기각하지 못한 것이지, H₀가 참임을 증명한 게 아니기 때문이다.
정확한 표현: "H₀를 기각하지 못했다" 또는 "H₀를 기각할 근거가 부족하다"
6. 가설 검정 5단계 절차
귀무가설(H₀)과 대립가설(H₁)을 설정한다. 단측 검정(>, <)인지 양측 검정(≠)인지도 결정한다.
α를 결정한다. (일반적으로 α = 0.05)
이 단계는 반드시 데이터를 보기 전에 이루어져야 한다.
표본 데이터로 검정 통계량(Z, t, χ², F 등)을 계산한다.
검정 통계량이 해당 확률분포에서 얼마나 극단적인 위치인지 확률(p값)로 변환한다.
p값과 α를 비교해 H₀ 기각 여부를 결정하고, 실질적 의미를 해석한다.
H₁: μ > 30분 (실제로는 30분을 초과한다) ← 단측 검정
SE = s / √n = 8.5 / √50 = 8.5 / 7.07 ≈ 1.202
Z = (x̄ − μ₀) / SE = (32.4 − 30) / 1.202 = 2.4 / 1.202 ≈ 1.996
표준정규분포표에서 P(Z > 1.996) ≈ 0.023
해석: "귀무가설이 참이라면(μ ≤ 30분), 이번처럼 x̄ ≥ 32.4분이 나올 확률은 2.3%다. 이는 5% 유의수준보다 낮으므로 귀무가설을 기각한다. 즉, 광고와 달리 실제 평균 배달 시간은 30분을 초과한다는 통계적 증거가 있다."
7. 단측 검정 vs 양측 검정
대립가설의 방향에 따라 검정 방식이 달라진다.
| 구분 | 대립가설 | 기각역 위치 | 사용 상황 |
|---|---|---|---|
| 우측 단측 | H₁: μ > μ₀ | 오른쪽 꼬리 | 새 방법이 기존보다 높은지 |
| 좌측 단측 | H₁: μ < μ₀ | 왼쪽 꼬리 | 새 방법이 기존보다 낮은지 |
| 양측 | H₁: μ ≠ μ₀ | 양쪽 꼬리 | 단순히 다른지 확인 |
양측 검정에서는 유의수준 α를 양쪽에 α/2씩 배분한다.
예) α=0.05 양측 검정 → 각 꼬리에 0.025씩 → Z 임계값 ±1.96
📌 양측 검정에서의 기각역(α=0.05)
−1.96 0 +1.96 기각역α/2=0.025기각역α/2=0.025채택역95%
8. 1종 오류와 2종 오류
가설 검정은 확률적 판단이기 때문에 항상 오류 가능성이 있다. 오류는 두 가지 종류로 나뉜다.
- 1종 오류 (Type I Error, α 오류): H₀가 실제로 참인데 H₀를 기각하는 오류
"효과 없음"이 사실인데 "효과 있다"고 잘못 결론 - 2종 오류 (Type II Error, β 오류): H₀가 실제로 거짓인데 H₀를 기각하지 않는 오류
"효과 있음"이 사실인데 "효과 없다"고 잘못 결론
| H₀가 실제로 참 | H₀가 실제로 거짓 | |
|---|---|---|
| H₀ 기각하지 않음 | 올바른 결정 (1−α, 특이도) |
2종 오류 (β) "놓침" |
| H₀ 기각 | 1종 오류 (α) "허위 양성" |
올바른 결정 (1−β, 검정력) |
암 진단 검사를 예로 들자.
H₀: 암이 없다 / H₁: 암이 있다
1종 오류 (α 오류): 암이 없는 사람을 "암 있음"으로 진단 → 불필요한 수술·치료 (허위 양성)
2종 오류 (β 오류): 암이 있는 사람을 "암 없음"으로 진단 → 치료 기회 상실 (허위 음성)
의료에서는 2종 오류(환자를 놓치는 것)가 더 위험하므로 민감도(검정력)를 높이는 방향으로 검사를 설계한다.
두 오류의 트레이드오프 관계
1종 오류와 2종 오류는 트레이드오프(trade-off) 관계에 있다. α를 줄이면(기준을 엄격하게) 1종 오류는 줄지만 2종 오류는 늘어나고, 반대로 α를 키우면 1종 오류는 늘지만 2종 오류는 줄어든다.
두 오류를 동시에 줄이는 방법은 표본 크기를 늘리는 것이다. 표본이 클수록 검정의 정밀도가 높아지면서 두 오류 모두 감소한다.
검정력은 "대립가설이 실제로 참일 때 올바르게 H₀를 기각할 확률"이다.
검정력이 높을수록 좋은 검정이다.
검정력에 영향을 주는 요인:
• 표본 크기 n ↑ → 검정력 ↑
• 유의수준 α ↑ → 검정력 ↑ (but 1종 오류 증가)
• 실제 효과 크기 ↑ → 검정력 ↑
• 모집단 분산 σ² ↓ → 검정력 ↑
논문이나 실험 설계 시 "검정력 80% 이상"을 목표로 표본 크기를 결정하는 경우가 많다.
9. 가설 검정 전체 흐름 정리
H₁: μ ≠ 180일 (실제 수명은 180일이 아니다) → 양측 검정
Z = (171 − 180) / 3.834 = −9 / 3.834 ≈ −2.347
검정 통계량 |−2.347| > 1.96 → 기각역 안에 있음 (두 방법 모두 같은 결론)
해석: "유의수준 5%에서 정수기 필터의 실제 평균 수명은 회사가 주장하는 180일과 통계적으로 유의미한 차이가 있다. 표본에서는 약 9일 더 짧은 171일로 나타났다."
※ 주의: 통계적 유의미함이 곧 실용적으로 중요한 차이를 뜻하지는 않는다. 9일 차이가 소비자에게 실질적 문제인지는 별도로 판단해야 한다.
📌 핵심 정리
- 가설 검정: 표본 데이터로 모집단에 대한 주장(가설)을 확률적으로 판단하는 과정
- H₀ (귀무가설): "차이 없음, 동일함" → 검정의 출발점. 참이라고 가정하고 시작
- H₁ (대립가설): "차이 있음, 다름" → 증명하고 싶은 주장
- p값: H₀가 참일 때 현재 데이터만큼 극단적인 결과가 나올 확률. 작을수록 H₀를 의심
- p값 ≠ H₀가 참일 확률: p값은 H₀가 참이라는 조건 아래의 확률이다
- 유의수준 α: H₀를 기각하는 기준값. 보통 0.05 사용
- 결정 규칙: p < α이면 H₀ 기각 / p ≥ α이면 H₀를 기각하지 못함
- 1종 오류(α): H₀ 참인데 기각 → "없는 효과를 있다고 함" (허위 양성)
- 2종 오류(β): H₀ 거짓인데 기각 못 함 → "있는 효과를 못 찾음" (허위 음성)
- 두 오류는 트레이드오프: 동시 최소화는 불가. 표본 크기 증가로 둘 다 줄일 수 있음
- 검정력 = 1−β: H₀가 거짓일 때 올바르게 기각할 확률. n↑, α↑, 효과크기↑이면 증가
'수학&통계학' 카테고리의 다른 글
| 카이제곱(χ²) 검정, F분포 ANOVA, 비모수 검정 (0) | 2026.05.13 |
|---|---|
| t분포를 활용한 가설 검정 (0) | 2026.05.13 |
| 통계적 추정 (0) | 2026.05.11 |
| 데이터 변환 및 관계 분석 (0) | 2026.05.11 |
| 기술 통계량 (산포 측도) (0) | 2026.05.11 |