통계적 가설 검정

728x90

"이 약이 실제로 효과가 있을까?", "우리 제품의 불량률이 기준 이하일까?"
이런 질문에 답하려면 데이터를 기반으로 통계적 판단을 내려야 한다.
이것이 통계적 가설 검정(Statistical Hypothesis Test)이다.
이번 글에서는 가설 검정의 논리 구조와 핵심 개념들을 처음 접하는 사람도 이해할 수 있도록 풀어 설명한다.

1. 가설 검정이란?

가설 검정은 모집단에 대한 어떤 주장(가설)이 맞는지 틀린지를 표본 데이터를 근거로 확률적으로 판단하는 과정이다.

핵심은 "확률적"이라는 점이다. 데이터를 아무리 많이 모아도 모집단 전체를 볼 수는 없기 때문에, 가설 검정은 항상 일정 확률로 틀릴 가능성을 안고 판단을 내린다.

💡 가설 검정을 재판에 비유하면
재판에서 피고는 "무죄 추정의 원칙"에 따라 증거가 충분할 때만 유죄 판결을 받는다.
가설 검정도 마찬가지다. 기존 주장(귀무가설)이 참이라고 보고 시작해서, 데이터가 충분히 강한 증거를 제시할 때만 귀무가설을 기각한다.
→ "증거가 불충분하면 무죄(귀무가설 채택)"가 기본 원칙이다.

2. 귀무가설과 대립가설

가설 검정에서는 항상 두 가지 가설을 세운다. 이 두 가설은 서로 반대되며, 둘 중 하나만 참이다.

귀무가설 (H₀, Null Hypothesis)

"차이가 없다", "관계가 없다", "동일하다"는 방향의 주장.
가설의 H에 없다는 의미의 0을 붙여 H₀로 표현한다.

기본 전제: 검정은 H₀가 참이라고 가정하고 시작한다.

대립가설 (H₁, Alternative Hypothesis)

"차이가 있다", "관계가 있다", "다르다(≠)"는 방향의 주장.
귀무가설과 정반대의 내용을 담으며 H₁ 또는 Hₐ로 표현한다.

검정을 통해 증명하고자 하는 주장이 여기 들어간다.

💡 왜 대립가설을 직접 증명하지 않고 귀무가설을 기각하는 방식을 쓸까?
수학에서 어떤 명제가 항상 참임을 증명하는 것보다, 그 반대 명제가 거짓임을 보이는 것(귀류법)이 훨씬 쉬운 경우가 많다.
통계적 증명도 마찬가지다. "효과가 있다"를 직접 증명하기보다 "효과가 없다는 가정 아래 이런 데이터가 나올 확률이 매우 낮다"는 논리로 접근한다.

가설 설정 예시를 몇 가지 보자.

신제품 배터리 수명 검정
H₀: 신제품 배터리의 평균 수명은 기존 제품(24시간)과 같다 (μ = 24)
H₁: 신제품 배터리의 평균 수명은 기존 제품과 다르다 (μ ≠ 24)
온라인 광고 클릭률 검정
H₀: 새 광고 디자인의 클릭률은 기존 클릭률(3%)과 같다 (p = 0.03)
H₁: 새 광고 디자인의 클릭률은 기존보다 높다 (p > 0.03)
두 그룹 평균 비교
H₀: A 학습법과 B 학습법의 평균 시험 점수 차이는 없다 (μA = μB)
H₁: 두 학습법의 평균 시험 점수는 다르다 (μA ≠ μB)

⚠️ 가설은 분석 목적과 무관하게 고정된다
귀무가설과 대립가설은 데이터를 보기 전에 미리 설정해야 한다. 데이터를 보고 나서 유리한 방향으로 가설을 바꾸는 것은 통계적으로 심각한 오류(HARKing: Hypothesizing After Results are Known)다.

3. 유의확률 (p-value)

p값은 가설 검정에서 가장 중요하고 가장 많이 오해받는 개념이다. 정확한 정의부터 살펴보자.

p값 = "귀무가설(H₀)이 참이라는 가정 아래, 현재 데이터에서 계산된 검정 통계량과 같거나 더 극단적인 값이 나올 확률"

💡 p값을 직관적으로 이해하기
동전이 공정하다(H₀: p=0.5)고 가정하자. 동전을 10번 던져 9번 앞면이 나왔다.
이 결과처럼 극단적이거나 더 극단적인 결과(9번 또는 10번 앞면)가 나올 확률을 계산한다.
이 확률이 바로 p값이다.

p값이 작다 → "공정한 동전이라면 이런 결과가 나오기 어렵다"
→ 귀무가설(공정한 동전)을 의심할 근거가 생긴다.

p값의 의미를 범위별로 정리하면:

p값이 1에 가까울수록: 귀무가설이 참일 때도 이런 데이터가 충분히 나올 수 있다. 즉, 데이터가 귀무가설을 반박하지 않는다.
p값이 0에 가까울수록: 귀무가설이 참이라면 이런 데이터가 나오기 매우 어렵다. 즉, 귀무가설이 잘못되었을 가능성이 높다 → 대립가설을 지지하게 된다.

⚠️ p값에 대한 흔한 오해 3가지
① p값은 "귀무가설이 참일 확률"이 아니다
   → p값은 "H₀가 참이라는 가정 아래 계산된 조건부 확률"이다.

② p값이 작다고 효과가 크다는 뜻이 아니다
   → 표본이 크면 아주 미세한 차이도 작은 p값을 만들어낸다. 실질적 유의미성은 별도로 판단해야 한다.

③ p값이 크다고 귀무가설이 증명된 것이 아니다
   → "증거 불충분"일 뿐, 귀무가설이 참이라는 증명이 아니다.

4. 검정 통계량 (Test Statistics)

가설 검정에서 판단의 근거가 되는 숫자를 검정 통계량이라고 한다. 표본 데이터를 특정 공식으로 변환해 계산하며, 이 값이 얼마나 극단적인지를 확률분포를 통해 p값으로 변환한다.

검정 통계량의 종류는 검정 목적에 따라 다르다.

주요 검정 통계량 종류

Z 통계량: 모분산을 알거나 n이 클 때 모평균 검정. Z ~ N(0,1)
t 통계량: 모분산을 모르고 n이 작을 때 평균 검정. t ~ t(n−1)
χ² 통계량: 분산 검정, 적합도 검정, 독립성 검정
F 통계량: 두 분산 비교(등분산 검정), 분산분석(ANOVA)

예를 들어 두 변수의 상관관계를 검정할 때는 아래 t 통계량을 사용한다. (r: 표본 상관계수, n: 표본 크기)

t = r√(n−2) / √(1−r²) ~ t(n−2)

귀무가설: ρ = 0 (두 변수는 선형 관계가 없다)
자유도 = n−2

5. 유의수준 (Significance Level, α)

p값만으로는 귀무가설을 기각할지 말지 결정하기 어렵다. "얼마나 낮은 p값이면 귀무가설을 기각하겠다"는 기준을 미리 정해야 하는데, 이 기준값을 유의수준(α, alpha)이라고 한다.

p값 < α이면 → H₀를 기각, H₁을 채택
p값 ≥ α이면 → H₀를 기각하지 않음 (H₁을 채택하지 못함)

일반적으로 α = 0.05(5%)를 가장 많이 사용하지만, 이것은 관습이지 절대적 기준이 아니다. 의학 임상시험처럼 중요한 결정일수록 α = 0.01(1%)처럼 더 엄격한 기준을 쓰기도 하고, 탐색적 분석에서는 α = 0.10(10%)을 쓰기도 한다.

💡 α = 0.05의 의미를 정확히 이해하기
α = 0.05는 "귀무가설이 실제로 참인데도 잘못 기각할 확률을 5% 이하로 허용한다"는 뜻이다.
즉, 100번 검정하면 평균 5번은 실제로 효과가 없는데도 "효과 있다"고 잘못 결론 내릴 수 있다.
이것이 바로 뒤에서 다룰 1종 오류다.

💡 "H₀를 기각한다" vs "H₀를 채택한다" — 올바른 표현
통계에서 H₀를 기각하지 못했을 때 "H₀를 채택한다"는 표현은 엄밀히는 옳지 않다.
증거가 부족해 기각하지 못한 것이지, H₀가 참임을 증명한 게 아니기 때문이다.
정확한 표현: "H₀를 기각하지 못했다" 또는 "H₀를 기각할 근거가 부족하다"

6. 가설 검정 5단계 절차

가설 설정
귀무가설(H₀)과 대립가설(H₁)을 설정한다. 단측 검정(>, <)인지 양측 검정(≠)인지도 결정한다.

유의수준 설정
α를 결정한다. (일반적으로 α = 0.05)
이 단계는 반드시 데이터를 보기 전에 이루어져야 한다.

검정 통계량 계산
표본 데이터로 검정 통계량(Z, t, χ², F 등)을 계산한다.

p값 계산
검정 통계량이 해당 확률분포에서 얼마나 극단적인 위치인지 확률(p값)로 변환한다.

결론 도출
p값과 α를 비교해 H₀ 기각 여부를 결정하고, 실질적 의미를 해석한다.

📌 전체 과정 예시: 배달 앱의 평균 배달 시간 검정

상황

배달 앱 회사는 "평균 배달 시간이 30분 이내"라고 광고한다. 소비자 단체가 50건을 직접 측정했더니 표본 평균 x̄ = 32.4분, 표본 표준편차 s = 8.5분이었다. 이 광고가 사실인지 α = 0.05 수준에서 검정하라.

① 가설 설정

H₀: μ ≤ 30분 (광고대로 30분 이내다)
H₁: μ > 30분 (실제로는 30분을 초과한다) ← 단측 검정

② 유의수준

α = 0.05

③ 검정 통계량 계산

n = 50으로 충분히 크므로 Z 통계량 사용
SE = s / √n = 8.5 / √50 = 8.5 / 7.07 ≈ 1.202
Z = (x̄ − μ₀) / SE = (32.4 − 30) / 1.202 = 2.4 / 1.202 ≈ 1.996

④ p값 계산

단측 검정이므로 P(Z > 1.996) 계산
표준정규분포표에서 P(Z > 1.996) ≈ 0.023

⑤ 결론

p값 = 0.023 < α = 0.05 → H₀ 기각

해석: "귀무가설이 참이라면(μ ≤ 30분), 이번처럼 x̄ ≥ 32.4분이 나올 확률은 2.3%다. 이는 5% 유의수준보다 낮으므로 귀무가설을 기각한다. 즉, 광고와 달리 실제 평균 배달 시간은 30분을 초과한다는 통계적 증거가 있다."

7. 단측 검정 vs 양측 검정

대립가설의 방향에 따라 검정 방식이 달라진다.

단측 vs 양측 검정 비교

구분	대립가설	기각역 위치	사용 상황
우측 단측	H₁: μ > μ₀	오른쪽 꼬리	새 방법이 기존보다 높은지
좌측 단측	H₁: μ < μ₀	왼쪽 꼬리	새 방법이 기존보다 낮은지
양측	H₁: μ ≠ μ₀	양쪽 꼬리	단순히 다른지 확인

양측 검정에서는 유의수준 α를 양쪽에 α/2씩 배분한다.
예) α=0.05 양측 검정 → 각 꼬리에 0.025씩 → Z 임계값 ±1.96

📌 양측 검정에서의 기각역(α=0.05)

−1.96 0 +1.96 기각역α/2=0.025기각역α/2=0.025채택역95%

8. 1종 오류와 2종 오류

가설 검정은 확률적 판단이기 때문에 항상 오류 가능성이 있다. 오류는 두 가지 종류로 나뉜다.

1종 오류 (Type I Error, α 오류): H₀가 실제로 참인데 H₀를 기각하는 오류
"효과 없음"이 사실인데 "효과 있다"고 잘못 결론
2종 오류 (Type II Error, β 오류): H₀가 실제로 거짓인데 H₀를 기각하지 않는 오류
"효과 있음"이 사실인데 "효과 없다"고 잘못 결론

	H₀가 실제로 참	H₀가 실제로 거짓
H₀ 기각하지 않음	올바른 결정 (1−α, 특이도)	2종 오류 (β) "놓침"
H₀ 기각	1종 오류 (α) "허위 양성"	올바른 결정 (1−β, 검정력)

💡 1종/2종 오류를 의학 검사로 이해하기
암 진단 검사를 예로 들자.
H₀: 암이 없다 / H₁: 암이 있다

1종 오류 (α 오류): 암이 없는 사람을 "암 있음"으로 진단 → 불필요한 수술·치료 (허위 양성)
2종 오류 (β 오류): 암이 있는 사람을 "암 없음"으로 진단 → 치료 기회 상실 (허위 음성)

의료에서는 2종 오류(환자를 놓치는 것)가 더 위험하므로 민감도(검정력)를 높이는 방향으로 검사를 설계한다.

두 오류의 트레이드오프 관계

1종 오류와 2종 오류는 트레이드오프(trade-off) 관계에 있다. α를 줄이면(기준을 엄격하게) 1종 오류는 줄지만 2종 오류는 늘어나고, 반대로 α를 키우면 1종 오류는 늘지만 2종 오류는 줄어든다.

두 오류를 동시에 줄이는 방법은 표본 크기를 늘리는 것이다. 표본이 클수록 검정의 정밀도가 높아지면서 두 오류 모두 감소한다.

💡 검정력 (Power = 1−β)
검정력은 "대립가설이 실제로 참일 때 올바르게 H₀를 기각할 확률"이다.
검정력이 높을수록 좋은 검정이다.

검정력에 영향을 주는 요인:
• 표본 크기 n ↑ → 검정력 ↑
• 유의수준 α ↑ → 검정력 ↑ (but 1종 오류 증가)
• 실제 효과 크기 ↑ → 검정력 ↑
• 모집단 분산 σ² ↓ → 검정력 ↑

논문이나 실험 설계 시 "검정력 80% 이상"을 목표로 표본 크기를 결정하는 경우가 많다.

9. 가설 검정 전체 흐름 정리

📌 정수기 필터 교체 주기 검정 — 전체 과정 종합 예시

상황

정수기 회사는 필터 수명이 평균 6개월(180일)이라고 주장한다. 소비자 보호원이 30개 제품을 테스트한 결과 평균 171일, 표준편차 21일이었다. α = 0.05에서 회사의 주장이 사실인지 검정하라.

① 가설

H₀: μ = 180일 (회사 주장대로 평균 수명은 180일이다)
H₁: μ ≠ 180일 (실제 수명은 180일이 아니다) → 양측 검정

② 유의수준

α = 0.05 → 기각역: |Z| > 1.96

③ 검정 통계량

SE = 21 / √30 ≈ 3.834
Z = (171 − 180) / 3.834 = −9 / 3.834 ≈ −2.347

④ p값

양측 검정: p값 = 2 × P(Z < −2.347) ≈ 2 × 0.0095 = 0.019