통계적 추정

728x90

모집단 전체를 조사하는 것은 대부분 불가능하다.
선거 여론조사에서 유권자 전원을 인터뷰할 수 없고, 식품 공장에서 생산된 제품 전체를 검사할 수도 없다.
대신 일부 표본을 뽑아 통계량을 계산하고, 이를 통해 모집단의 모수를 추정한다.
이 과정 전체를 통계적 추정(Statistical Estimation)이라고 한다.

1. 모수, 통계량, 추정이란?

핵심 용어 정리

모수 (Parameter)

모집단의 특성을 나타내는 고정된 수치.
이론적으로 존재하지만 현실에서는 알 수 없는 경우가 대부분이다.

예: 모평균 μ, 모분산 σ², 모비율 p

통계량 (Statistic)

표본 데이터에서 계산한 수치.
표본마다 달라지는 확률변수이며, 모수를 추정하는 데 활용된다.

예: 표본평균 x̄, 표본분산 s², 표본비율 p̂

모수는 고정값이지만 알 수 없고, 통계량은 알 수 있지만 표본마다 다르다. 추정(Estimation)은 통계량을 활용해 모수의 값을 유추하는 과정이다.

📌 모수 추정의 흐름

모집단
Population

→

표본 추출
Sampling

표본
Sample

↓ 특성 설명

모수
μ, σ², p

←

추정
Estimation

통계량
x̄, s², p̂

모집단 → 표본 추출 → 통계량 계산 → 모수 추정

💡 모집단과 전수조사가 불가능한 이유
• 모집단 자체가 무한히 크거나 추상적인 경우 (예: 앞으로 생산될 모든 제품)
• 전수조사 비용·시간이 현실적으로 허용되지 않는 경우 (국가 여론조사)
• 조사 자체가 대상을 파괴하는 경우 (전구 수명 테스트 → 전구를 태워야 함)
→ 이런 이유로 통계적 추정은 실무에서 필수적인 도구다.

2. 좋은 추정량(Estimator)의 조건

모수를 추정하는 통계량을 추정량(Estimator)이라고 한다. 추정량이 되기 위한 이상적인 조건이 있다.

불편성 (Unbiasedness)

추정량의 기댓값이 모수와 같아야 한다.
E[θ̂] = θ
표본분산을 (n−1)로 나누는 이유가 바로 불편성을 확보하기 위해서다.

효율성 (Efficiency)

여러 불편 추정량 중에서 분산이 가장 작은 것.
분산이 작을수록 추정값이 모수에 더 가깝게 집중된다.
표본 평균은 중앙값보다 효율적인 추정량이다.

일치성 (Consistency)

표본 크기 n이 커질수록 추정량이 모수에 수렴해야 한다.
n → ∞이면 θ̂ → θ
대수의 법칙에 의해 표본 평균은 일치 추정량이다.

충분성 (Sufficiency)

추정량이 모수에 대한 표본의 모든 정보를 담고 있어야 한다.
표본 평균은 정규분포의 모평균에 대한 충분 통계량이다.

3. 점 추정 (Point Estimation)

개념

모수를 하나의 숫자(점)로 추정하는 방법이다. 가장 직관적인 방식으로, 표본에서 계산한 통계량을 모수의 추정값으로 제시한다.

모수	기호	점 추정량	기호
모평균	μ	표본 평균	x̄ = Σxᵢ/n
모분산	σ²	표본 분산	s² = Σ(xᵢ−x̄)²/(n−1)
모표준편차	σ	표본 표준편차	s = √s²
모비율	p	표본 비율	p̂ = X/n (성공 횟수/전체)

점 추정

커피숍 아메리카노 한 잔의 카페인 함량 추정

품질 관리 담당자가 하루 생산된 아메리카노 중 10잔을 무작위로 뽑아 카페인 함량(mg)을 측정했다.
측정값: 142, 138, 145, 140, 143, 137, 141, 144, 139, 146

표본 평균 x̄ = (142+138+145+140+143+137+141+144+139+146) / 10 = 1415 / 10 = 141.5mg
→ 모집단 전체의 평균 카페인 함량(μ)을 141.5mg으로 점 추정

표본 분산 s² = Σ(xᵢ−141.5)² / 9 ≈ 8.5 (mg²)
표본 표준편차 s ≈ 2.92mg

⚠️ 점 추정의 한계
점 추정은 하나의 값만 제시하기 때문에 추정의 불확실성을 표현할 수 없다.
"카페인 함량은 141.5mg이다"라고 했을 때,
이 추정이 얼마나 믿을 만한지, 오차 범위가 얼마인지를 알 수 없다.
→ 이 한계를 보완하는 것이 구간 추정이다.

4. 구간 추정 (Interval Estimation)

개념

모수가 포함될 것으로 예상되는 범위(구간)를 확률적으로 추정하는 방법이다. 이 구간을 신뢰 구간(Confidence Interval, CI)이라고 한다.

❓ "95% 신뢰 구간"은 정확히 무슨 의미인가?

"모수가 이 구간 안에 있을 확률이 95%"가 아니다.
모수는 고정값이므로 확률이 없다.

정확한 의미: "이 방법으로 100번 반복해서 구간을 구하면, 그 중 약 95번은 모수를 포함하는 구간이 만들어진다"
→ 신뢰 수준은 구간 추정 방법 자체의 신뢰도를 나타내는 것이다.

신뢰 수준(Confidence Level)과 유의 수준(α)

신뢰 수준: (1−α) × 100% — 구간이 모수를 포함할 장기적 비율
유의 수준 α: 모수가 구간 밖에 있을 허용 확률
신뢰 수준을 높이면 → 구간이 넓어짐 (확실하지만 정밀도 감소)
신뢰 수준을 낮추면 → 구간이 좁아짐 (정밀하지만 신뢰도 감소)

신뢰 수준	유의 수준 α	양측 Z 임계값 (z_α/2)
90%	0.10	±1.645
95%	0.05	±1.960
99%	0.01	±2.576

모평균의 신뢰 구간 유도

n이 충분히 크고 모표준편차 σ를 안다고 가정하면, 중심극한정리에 의해:

STEP 1 표본 평균의 분포: x̄ ~ N(μ, σ²/n)
→ CLT에 의해 표본 평균은 정규분포를 따른다. STEP 2 표준화: Z = (x̄ − μ) / (σ/√n) ~ N(0, 1)
→ x̄에서 μ를 빼고 표준오차(σ/√n)로 나누면 표준정규분포를 따른다. STEP 3 95% 신뢰 구간 설정 (z_0.025 = 1.96 활용):
P(−1.96 ≤ Z ≤ 1.96) = 0.95
P(−1.96 ≤ (x̄−μ)/(σ/√n) ≤ 1.96) = 0.95
STEP 4 μ에 대해 정리:
P(x̄ − 1.96·(σ/√n) ≤ μ ≤ x̄ + 1.96·(σ/√n)) = 0.95

95% 신뢰 구간: x̄ ± 1.96 · (σ / √n)

일반화: x̄ ± z_α/2 · (σ / √n)
σ를 모를 때는 s(표본 표준편차)로 대체 → t분포 활용

오차 한계 (Margin of Error)

신뢰 구간의 반폭(半幅)을 오차 한계(Margin of Error, ME)라고 한다. "오차 ±E 이내"로 표현할 때 이 E가 오차 한계다.

ME = z_α/2 · (σ / √n)

→ 신뢰구간 = x̄ ± ME
n이 클수록, σ가 작을수록 ME가 줄어든다 = 추정이 정밀해진다

신뢰 구간 시각화 — 같은 데이터, 다른 신뢰 수준

구간 추정

전국 직장인 평균 통근 시간 추정

전국 직장인 500명을 무작위 표본 추출하여 통근 시간을 조사했다.
표본 평균 x̄ = 47.3분, 표본 표준편차 s = 18.6분
(n=500으로 충분히 크므로 s ≈ σ로 근사, Z분포 사용)

표준오차 SE = s / √n = 18.6 / √500 = 18.6 / 22.36 ≈ 0.832분

95% 신뢰 구간:
x̄ ± 1.96 × SE = 47.3 ± 1.96 × 0.832
= 47.3 ± 1.63
= (45.67분, 48.93분)

→ "전국 직장인의 평균 통근 시간은 95% 신뢰 수준에서 약 45.7분~48.9분 사이"
오차 한계 ME = ±1.63분

모비율 구간 추정

앱 설치 후 실제 사용 비율 추정

마케팅팀이 앱 설치자 1,000명 중 620명이 실제로 앱을 1회 이상 사용했다는 데이터를 얻었다.
전체 설치자 중 실제 사용 비율 p의 95% 신뢰 구간을 구하라.

표본 비율 p̂ = 620/1000 = 0.62
표준오차 SE = √(p̂(1−p̂)/n) = √(0.62×0.38/1000) = √0.000236 ≈ 0.01535

95% 신뢰 구간:
p̂ ± 1.96 × SE = 0.62 ± 1.96 × 0.01535
= 0.62 ± 0.030
= (0.590, 0.650) = 59.0% ~ 65.0%

→ "앱 실제 사용 비율은 95% 신뢰 수준에서 59~65% 사이로 추정"

5. 표준오차 (Standard Error, SE)

개념

통계량(추정량)의 표준편차를 표준오차라고 한다. 점 추정치가 모수로부터 얼마나 변동하는지를 나타내며, 신뢰 구간의 폭을 결정하는 핵심 요소다.

표본 평균의 표준오차 유도

모집단: 평균 μ, 분산 σ², 표본 크기 n
표본 평균 x̄ = (X₁+X₂+···+Xₙ)/n (각 Xᵢ는 독립, 동일 분포)

기댓값 E[x̄] = E[(X₁+···+Xₙ)/n] = nμ/n = μ → 표본 평균은 모평균의 불편 추정량이다. 분산 Var(x̄) = Var((X₁+···+Xₙ)/n) = nσ²/n² = σ²/n → 독립이므로 분산이 합산되고, 1/n²이 곱해진다. 표준오차 SE(x̄) = SD(x̄) = √(σ²/n) = σ/√n → 표준오차는 표본 크기 n의 제곱근에 반비례한다.

SE(x̄) = σ / √n (σ 모를 때: s / √n)

n이 4배 커지면 SE는 절반으로 줄어든다
→ 표본을 2배 늘리면 정밀도가 √2배 향상된다

표준오차 vs 표준편차 — 헷갈리는 두 개념

표준편차 (SD)

데이터 개별 값들의 퍼짐 정도
SD = s = √(Σ(xᵢ−x̄)²/(n−1))

→ 데이터 자체가 얼마나 다양한가
→ n이 커져도 크게 변하지 않음

표준오차 (SE)

표본 평균들의 퍼짐 정도
SE = s / √n

→ 표본 평균 추정이 얼마나 정밀한가
→ n이 커질수록 작아짐 (정밀도 향상)

표준오차

표본 크기가 신뢰 구간에 미치는 영향

어느 배터리 공장에서 배터리 수명(시간)을 조사했다. σ = 40시간으로 알려져 있다.
표본 크기를 달리하며 95% 신뢰 구간의 오차 한계를 비교해보자.

n=25: ME = 1.96 × 40/√25 = 1.96 × 8.0 = ±15.68시간
n=100: ME = 1.96 × 40/√100 = 1.96 × 4.0 = ±7.84시간
n=400: ME = 1.96 × 40/√400 = 1.96 × 2.0 = ±3.92시간

→ 표본을 4배 늘리면 오차 한계가 절반으로 줄어든다 (√4=2배)

필요 표본 크기 계산

원하는 오차 한계 E를 먼저 정하고, 그에 필요한 최소 표본 크기를 역산할 수 있다.

n ≥ (z_α/2 · σ / E)²

E: 허용 오차 한계 | σ: 모표준편차 (모를 경우 사전 조사값 또는 보수적 추정값 사용)
σ를 모를 때: 모비율 추정의 경우 p̂(1−p̂)의 최대값 0.25 (p̂=0.5) 사용

표본 크기 결정

여론조사 표본 크기 설계

특정 정책에 대한 찬성률을 오차 한계 ±3%(0.03) 이내, 95% 신뢰 수준으로 추정하려 한다.
사전 정보가 없을 때 필요한 최소 표본 크기는?

p̂ = 0.5 (최대 분산 가정: 보수적 추정)
SE_max = √(0.5×0.5/n) = 0.5/√n

n ≥ (1.96 × 0.5 / 0.03)² = (32.67)² ≈ 1067

→ 최소 1,068명의 표본이 필요하다
(실제 선거 여론조사에서 통상 1,000~1,500명을 조사하는 이유가 여기에 있다)

6. σ를 모를 때의 신뢰 구간 — t분포 활용

현실에서 모표준편차 σ를 아는 경우는 드물다. σ 대신 표본 표준편차 s를 쓰면 t분포를 따르게 된다.

95% 신뢰 구간 (σ 모를 때): x̄ ± t_{α/2, n−1} · (s / √n)

t_{α/2, n−1}: 자유도 (n−1)인 t분포의 임계값
n이 클수록 t분포 → Z분포로 수렴 (n≥30이면 Z분포 근사 허용)

📌 Z분포 vs t분포 선택 기준
• σ 알고 있거나 n ≥ 30: Z분포 사용 (z_α/2)
• σ 모르고 n < 30: t분포 사용 (t_{α/2, n−1})
• n이 작을수록 t분포의 꼬리가 두꺼워져 신뢰 구간이 더 넓어진다 = 작은 표본에서의 불확실성을 구간에 반영한다

t분포 신뢰 구간

카페인 함량 예시 재계산 (σ 모르는 경우)

앞서 커피숍 예시: n=10, x̄=141.5mg, s≈2.92mg
σ를 모르고 n=10(소표본)이므로 t분포 사용. 자유도 = 10−1 = 9
t_{0.025, 9} = 2.262 (t표에서)

SE = s/√n = 2.92/√10 ≈ 0.923mg

95% 신뢰 구간: 141.5 ± 2.262 × 0.923
= 141.5 ± 2.09
= (139.41mg, 143.59mg)

※ Z분포로 계산했다면: 141.5 ± 1.96×0.923 = (139.69, 143.31) → t분포가 더 넓다

📌 핵심 정리

모수(Parameter): 모집단의 고정된 특성값 (μ, σ², p)
통계량(Statistic): 표본에서 계산한 추정값 (x̄, s², p̂)
점 추정: 모수를 하나의 숫자로 추정. 불확실성 표현 불가
구간 추정: 신뢰 구간 = x̄ ± z_α/2·(σ/√n). 신뢰 수준↑ → 구간 넓어짐
95% 신뢰 구간: 이 방법으로 100번 반복하면 95번은 모수를 포함
오차 한계(ME): z_α/2·σ/√n — n↑이면 ME↓
표준오차(SE): σ/√n — 추정량의 표준편차, 정밀도 지표
SE vs SD: SD는 데이터 산포 / SE는 추정의 정밀도
필요 표본 크기: n ≥ (z_α/2·σ/E)²
σ 모를 때: s 대체 + t분포 사용 (자유도 n−1)
좋은 추정량 조건: 불편성·효율성·일치성·충분성

728x90

'수학&통계학' 카테고리의 다른 글

t분포를 활용한 가설 검정 (0)	2026.05.13
통계적 가설 검정 (0)	2026.05.13
데이터 변환 및 관계 분석 (0)	2026.05.11
기술 통계량 (산포 측도) (0)	2026.05.11
기술 통계량 (중심 측도) (0)	2026.05.11

구구 코스모스

통계적 추정

1. 모수, 통계량, 추정이란?

핵심 용어 정리

2. 좋은 추정량(Estimator)의 조건

3. 점 추정 (Point Estimation)

개념

4. 구간 추정 (Interval Estimation)

개념

신뢰 수준(Confidence Level)과 유의 수준(α)

모평균의 신뢰 구간 유도

오차 한계 (Margin of Error)

신뢰 구간 시각화 — 같은 데이터, 다른 신뢰 수준

5. 표준오차 (Standard Error, SE)

개념

표본 평균의 표준오차 유도

표준오차 vs 표준편차 — 헷갈리는 두 개념

필요 표본 크기 계산

6. σ를 모를 때의 신뢰 구간 — t분포 활용

📌 핵심 정리

'수학&통계학' 카테고리의 다른 글

티스토리툴바

통계적 추정

1. 모수, 통계량, 추정이란?

핵심 용어 정리

2. 좋은 추정량(Estimator)의 조건

3. 점 추정 (Point Estimation)

개념

4. 구간 추정 (Interval Estimation)

개념

신뢰 수준(Confidence Level)과 유의 수준(α)

모평균의 신뢰 구간 유도

오차 한계 (Margin of Error)

신뢰 구간 시각화 — 같은 데이터, 다른 신뢰 수준

5. 표준오차 (Standard Error, SE)

개념

표본 평균의 표준오차 유도

표준오차 vs 표준편차 — 헷갈리는 두 개념

필요 표본 크기 계산

6. σ를 모를 때의 신뢰 구간 — t분포 활용

📌 핵심 정리

'수학&통계학' 카테고리의 다른 글

관련글

티스토리툴바