728x90
모집단 전체를 조사하는 것은 대부분 불가능하다.
선거 여론조사에서 유권자 전원을 인터뷰할 수 없고, 식품 공장에서 생산된 제품 전체를 검사할 수도 없다.
대신 일부 표본을 뽑아 통계량을 계산하고, 이를 통해 모집단의 모수를 추정한다.
이 과정 전체를 통계적 추정(Statistical Estimation)이라고 한다.
선거 여론조사에서 유권자 전원을 인터뷰할 수 없고, 식품 공장에서 생산된 제품 전체를 검사할 수도 없다.
대신 일부 표본을 뽑아 통계량을 계산하고, 이를 통해 모집단의 모수를 추정한다.
이 과정 전체를 통계적 추정(Statistical Estimation)이라고 한다.
1. 모수, 통계량, 추정이란?
핵심 용어 정리
모수 (Parameter)
모집단의 특성을 나타내는 고정된 수치.이론적으로 존재하지만 현실에서는 알 수 없는 경우가 대부분이다.
예: 모평균 μ, 모분산 σ², 모비율 p
통계량 (Statistic)
표본 데이터에서 계산한 수치.표본마다 달라지는 확률변수이며, 모수를 추정하는 데 활용된다.
예: 표본평균 x̄, 표본분산 s², 표본비율 p̂
모수는 고정값이지만 알 수 없고, 통계량은 알 수 있지만 표본마다 다르다. 추정(Estimation)은 통계량을 활용해 모수의 값을 유추하는 과정이다.
📌 모수 추정의 흐름
모집단
Population
Population
→
표본 추출
Sampling
Sampling
표본
Sample
Sample
↓ 특성 설명
모수
μ, σ², p
μ, σ², p
←
추정
Estimation
Estimation
통계량
x̄, s², p̂
x̄, s², p̂
모집단 → 표본 추출 → 통계량 계산 → 모수 추정
💡 모집단과 전수조사가 불가능한 이유
• 모집단 자체가 무한히 크거나 추상적인 경우 (예: 앞으로 생산될 모든 제품)
• 전수조사 비용·시간이 현실적으로 허용되지 않는 경우 (국가 여론조사)
• 조사 자체가 대상을 파괴하는 경우 (전구 수명 테스트 → 전구를 태워야 함)
→ 이런 이유로 통계적 추정은 실무에서 필수적인 도구다.
• 모집단 자체가 무한히 크거나 추상적인 경우 (예: 앞으로 생산될 모든 제품)
• 전수조사 비용·시간이 현실적으로 허용되지 않는 경우 (국가 여론조사)
• 조사 자체가 대상을 파괴하는 경우 (전구 수명 테스트 → 전구를 태워야 함)
→ 이런 이유로 통계적 추정은 실무에서 필수적인 도구다.
2. 좋은 추정량(Estimator)의 조건
모수를 추정하는 통계량을 추정량(Estimator)이라고 한다. 추정량이 되기 위한 이상적인 조건이 있다.
1
불편성 (Unbiasedness)
추정량의 기댓값이 모수와 같아야 한다.
E[θ̂] = θ
표본분산을 (n−1)로 나누는 이유가 바로 불편성을 확보하기 위해서다.
E[θ̂] = θ
표본분산을 (n−1)로 나누는 이유가 바로 불편성을 확보하기 위해서다.
2
효율성 (Efficiency)
여러 불편 추정량 중에서 분산이 가장 작은 것.
분산이 작을수록 추정값이 모수에 더 가깝게 집중된다.
표본 평균은 중앙값보다 효율적인 추정량이다.
분산이 작을수록 추정값이 모수에 더 가깝게 집중된다.
표본 평균은 중앙값보다 효율적인 추정량이다.
3
일치성 (Consistency)
표본 크기 n이 커질수록 추정량이 모수에 수렴해야 한다.
n → ∞이면 θ̂ → θ
대수의 법칙에 의해 표본 평균은 일치 추정량이다.
n → ∞이면 θ̂ → θ
대수의 법칙에 의해 표본 평균은 일치 추정량이다.
4
충분성 (Sufficiency)
추정량이 모수에 대한 표본의 모든 정보를 담고 있어야 한다.
표본 평균은 정규분포의 모평균에 대한 충분 통계량이다.
표본 평균은 정규분포의 모평균에 대한 충분 통계량이다.
3. 점 추정 (Point Estimation)
개념
모수를 하나의 숫자(점)로 추정하는 방법이다. 가장 직관적인 방식으로, 표본에서 계산한 통계량을 모수의 추정값으로 제시한다.
| 모수 | 기호 | 점 추정량 | 기호 |
|---|---|---|---|
| 모평균 | μ | 표본 평균 | x̄ = Σxᵢ/n |
| 모분산 | σ² | 표본 분산 | s² = Σ(xᵢ−x̄)²/(n−1) |
| 모표준편차 | σ | 표본 표준편차 | s = √s² |
| 모비율 | p | 표본 비율 | p̂ = X/n (성공 횟수/전체) |
점 추정
커피숍 아메리카노 한 잔의 카페인 함량 추정
품질 관리 담당자가 하루 생산된 아메리카노 중 10잔을 무작위로 뽑아 카페인 함량(mg)을 측정했다.
측정값: 142, 138, 145, 140, 143, 137, 141, 144, 139, 146
측정값: 142, 138, 145, 140, 143, 137, 141, 144, 139, 146
표본 평균 x̄ = (142+138+145+140+143+137+141+144+139+146) / 10 = 1415 / 10 = 141.5mg
→ 모집단 전체의 평균 카페인 함량(μ)을 141.5mg으로 점 추정
표본 분산 s² = Σ(xᵢ−141.5)² / 9 ≈ 8.5 (mg²)
표본 표준편차 s ≈ 2.92mg
→ 모집단 전체의 평균 카페인 함량(μ)을 141.5mg으로 점 추정
표본 분산 s² = Σ(xᵢ−141.5)² / 9 ≈ 8.5 (mg²)
표본 표준편차 s ≈ 2.92mg
⚠️ 점 추정의 한계
점 추정은 하나의 값만 제시하기 때문에 추정의 불확실성을 표현할 수 없다.
"카페인 함량은 141.5mg이다"라고 했을 때,
이 추정이 얼마나 믿을 만한지, 오차 범위가 얼마인지를 알 수 없다.
→ 이 한계를 보완하는 것이 구간 추정이다.
점 추정은 하나의 값만 제시하기 때문에 추정의 불확실성을 표현할 수 없다.
"카페인 함량은 141.5mg이다"라고 했을 때,
이 추정이 얼마나 믿을 만한지, 오차 범위가 얼마인지를 알 수 없다.
→ 이 한계를 보완하는 것이 구간 추정이다.
반응형
4. 구간 추정 (Interval Estimation)
개념
모수가 포함될 것으로 예상되는 범위(구간)를 확률적으로 추정하는 방법이다. 이 구간을 신뢰 구간(Confidence Interval, CI)이라고 한다.
❓ "95% 신뢰 구간"은 정확히 무슨 의미인가?
"모수가 이 구간 안에 있을 확률이 95%"가 아니다.모수는 고정값이므로 확률이 없다.
정확한 의미: "이 방법으로 100번 반복해서 구간을 구하면, 그 중 약 95번은 모수를 포함하는 구간이 만들어진다"
→ 신뢰 수준은 구간 추정 방법 자체의 신뢰도를 나타내는 것이다.
신뢰 수준(Confidence Level)과 유의 수준(α)
- 신뢰 수준: (1−α) × 100% — 구간이 모수를 포함할 장기적 비율
- 유의 수준 α: 모수가 구간 밖에 있을 허용 확률
- 신뢰 수준을 높이면 → 구간이 넓어짐 (확실하지만 정밀도 감소)
- 신뢰 수준을 낮추면 → 구간이 좁아짐 (정밀하지만 신뢰도 감소)
| 신뢰 수준 | 유의 수준 α | 양측 Z 임계값 (zα/2) |
|---|---|---|
| 90% | 0.10 | ±1.645 |
| 95% | 0.05 | ±1.960 |
| 99% | 0.01 | ±2.576 |
모평균의 신뢰 구간 유도
n이 충분히 크고 모표준편차 σ를 안다고 가정하면, 중심극한정리에 의해:
STEP 1 표본 평균의 분포: x̄ ~ N(μ, σ²/n)
→ CLT에 의해 표본 평균은 정규분포를 따른다. STEP 2 표준화: Z = (x̄ − μ) / (σ/√n) ~ N(0, 1)
→ x̄에서 μ를 빼고 표준오차(σ/√n)로 나누면 표준정규분포를 따른다. STEP 3 95% 신뢰 구간 설정 (z0.025 = 1.96 활용):
P(−1.96 ≤ Z ≤ 1.96) = 0.95
P(−1.96 ≤ (x̄−μ)/(σ/√n) ≤ 1.96) = 0.95
STEP 4 μ에 대해 정리:
P(x̄ − 1.96·(σ/√n) ≤ μ ≤ x̄ + 1.96·(σ/√n)) = 0.95
→ CLT에 의해 표본 평균은 정규분포를 따른다. STEP 2 표준화: Z = (x̄ − μ) / (σ/√n) ~ N(0, 1)
→ x̄에서 μ를 빼고 표준오차(σ/√n)로 나누면 표준정규분포를 따른다. STEP 3 95% 신뢰 구간 설정 (z0.025 = 1.96 활용):
P(−1.96 ≤ Z ≤ 1.96) = 0.95
P(−1.96 ≤ (x̄−μ)/(σ/√n) ≤ 1.96) = 0.95
STEP 4 μ에 대해 정리:
P(x̄ − 1.96·(σ/√n) ≤ μ ≤ x̄ + 1.96·(σ/√n)) = 0.95
95% 신뢰 구간: x̄ ± 1.96 · (σ / √n)
일반화: x̄ ± zα/2 · (σ / √n)
σ를 모를 때는 s(표본 표준편차)로 대체 → t분포 활용
σ를 모를 때는 s(표본 표준편차)로 대체 → t분포 활용
오차 한계 (Margin of Error)
신뢰 구간의 반폭(半幅)을 오차 한계(Margin of Error, ME)라고 한다. "오차 ±E 이내"로 표현할 때 이 E가 오차 한계다.
ME = zα/2 · (σ / √n)
→ 신뢰구간 = x̄ ± ME
n이 클수록, σ가 작을수록 ME가 줄어든다 = 추정이 정밀해진다
n이 클수록, σ가 작을수록 ME가 줄어든다 = 추정이 정밀해진다
신뢰 구간 시각화 — 같은 데이터, 다른 신뢰 수준

구간 추정
전국 직장인 평균 통근 시간 추정
전국 직장인 500명을 무작위 표본 추출하여 통근 시간을 조사했다.
표본 평균 x̄ = 47.3분, 표본 표준편차 s = 18.6분
(n=500으로 충분히 크므로 s ≈ σ로 근사, Z분포 사용)
표본 평균 x̄ = 47.3분, 표본 표준편차 s = 18.6분
(n=500으로 충분히 크므로 s ≈ σ로 근사, Z분포 사용)
표준오차 SE = s / √n = 18.6 / √500 = 18.6 / 22.36 ≈ 0.832분
95% 신뢰 구간:
x̄ ± 1.96 × SE = 47.3 ± 1.96 × 0.832
= 47.3 ± 1.63
= (45.67분, 48.93분)
→ "전국 직장인의 평균 통근 시간은 95% 신뢰 수준에서 약 45.7분~48.9분 사이"
오차 한계 ME = ±1.63분
95% 신뢰 구간:
x̄ ± 1.96 × SE = 47.3 ± 1.96 × 0.832
= 47.3 ± 1.63
= (45.67분, 48.93분)
→ "전국 직장인의 평균 통근 시간은 95% 신뢰 수준에서 약 45.7분~48.9분 사이"
오차 한계 ME = ±1.63분
모비율 구간 추정
앱 설치 후 실제 사용 비율 추정
마케팅팀이 앱 설치자 1,000명 중 620명이 실제로 앱을 1회 이상 사용했다는 데이터를 얻었다.
전체 설치자 중 실제 사용 비율 p의 95% 신뢰 구간을 구하라.
전체 설치자 중 실제 사용 비율 p의 95% 신뢰 구간을 구하라.
표본 비율 p̂ = 620/1000 = 0.62
표준오차 SE = √(p̂(1−p̂)/n) = √(0.62×0.38/1000) = √0.000236 ≈ 0.01535
95% 신뢰 구간:
p̂ ± 1.96 × SE = 0.62 ± 1.96 × 0.01535
= 0.62 ± 0.030
= (0.590, 0.650) = 59.0% ~ 65.0%
→ "앱 실제 사용 비율은 95% 신뢰 수준에서 59~65% 사이로 추정"
표준오차 SE = √(p̂(1−p̂)/n) = √(0.62×0.38/1000) = √0.000236 ≈ 0.01535
95% 신뢰 구간:
p̂ ± 1.96 × SE = 0.62 ± 1.96 × 0.01535
= 0.62 ± 0.030
= (0.590, 0.650) = 59.0% ~ 65.0%
→ "앱 실제 사용 비율은 95% 신뢰 수준에서 59~65% 사이로 추정"
5. 표준오차 (Standard Error, SE)
개념
통계량(추정량)의 표준편차를 표준오차라고 한다. 점 추정치가 모수로부터 얼마나 변동하는지를 나타내며, 신뢰 구간의 폭을 결정하는 핵심 요소다.
표본 평균의 표준오차 유도
모집단: 평균 μ, 분산 σ², 표본 크기 n
표본 평균 x̄ = (X₁+X₂+···+Xₙ)/n (각 Xᵢ는 독립, 동일 분포)
기댓값 E[x̄] = E[(X₁+···+Xₙ)/n] = nμ/n = μ → 표본 평균은 모평균의 불편 추정량이다. 분산 Var(x̄) = Var((X₁+···+Xₙ)/n) = nσ²/n² = σ²/n → 독립이므로 분산이 합산되고, 1/n²이 곱해진다. 표준오차 SE(x̄) = SD(x̄) = √(σ²/n) = σ/√n → 표준오차는 표본 크기 n의 제곱근에 반비례한다.
표본 평균 x̄ = (X₁+X₂+···+Xₙ)/n (각 Xᵢ는 독립, 동일 분포)
기댓값 E[x̄] = E[(X₁+···+Xₙ)/n] = nμ/n = μ → 표본 평균은 모평균의 불편 추정량이다. 분산 Var(x̄) = Var((X₁+···+Xₙ)/n) = nσ²/n² = σ²/n → 독립이므로 분산이 합산되고, 1/n²이 곱해진다. 표준오차 SE(x̄) = SD(x̄) = √(σ²/n) = σ/√n → 표준오차는 표본 크기 n의 제곱근에 반비례한다.
SE(x̄) = σ / √n (σ 모를 때: s / √n)
n이 4배 커지면 SE는 절반으로 줄어든다
→ 표본을 2배 늘리면 정밀도가 √2배 향상된다
→ 표본을 2배 늘리면 정밀도가 √2배 향상된다
표준오차 vs 표준편차 — 헷갈리는 두 개념
표준편차 (SD)
데이터 개별 값들의 퍼짐 정도SD = s = √(Σ(xᵢ−x̄)²/(n−1))
→ 데이터 자체가 얼마나 다양한가
→ n이 커져도 크게 변하지 않음
표준오차 (SE)
표본 평균들의 퍼짐 정도SE = s / √n
→ 표본 평균 추정이 얼마나 정밀한가
→ n이 커질수록 작아짐 (정밀도 향상)
표준오차
표본 크기가 신뢰 구간에 미치는 영향
어느 배터리 공장에서 배터리 수명(시간)을 조사했다. σ = 40시간으로 알려져 있다.
표본 크기를 달리하며 95% 신뢰 구간의 오차 한계를 비교해보자.
표본 크기를 달리하며 95% 신뢰 구간의 오차 한계를 비교해보자.
n=25: ME = 1.96 × 40/√25 = 1.96 × 8.0 = ±15.68시간
n=100: ME = 1.96 × 40/√100 = 1.96 × 4.0 = ±7.84시간
n=400: ME = 1.96 × 40/√400 = 1.96 × 2.0 = ±3.92시간
→ 표본을 4배 늘리면 오차 한계가 절반으로 줄어든다 (√4=2배)
n=100: ME = 1.96 × 40/√100 = 1.96 × 4.0 = ±7.84시간
n=400: ME = 1.96 × 40/√400 = 1.96 × 2.0 = ±3.92시간
→ 표본을 4배 늘리면 오차 한계가 절반으로 줄어든다 (√4=2배)
필요 표본 크기 계산
원하는 오차 한계 E를 먼저 정하고, 그에 필요한 최소 표본 크기를 역산할 수 있다.
n ≥ (zα/2 · σ / E)²
E: 허용 오차 한계 | σ: 모표준편차 (모를 경우 사전 조사값 또는 보수적 추정값 사용)
σ를 모를 때: 모비율 추정의 경우 p̂(1−p̂)의 최대값 0.25 (p̂=0.5) 사용
σ를 모를 때: 모비율 추정의 경우 p̂(1−p̂)의 최대값 0.25 (p̂=0.5) 사용
표본 크기 결정
여론조사 표본 크기 설계
특정 정책에 대한 찬성률을 오차 한계 ±3%(0.03) 이내, 95% 신뢰 수준으로 추정하려 한다.
사전 정보가 없을 때 필요한 최소 표본 크기는?
사전 정보가 없을 때 필요한 최소 표본 크기는?
p̂ = 0.5 (최대 분산 가정: 보수적 추정)
SE_max = √(0.5×0.5/n) = 0.5/√n
n ≥ (1.96 × 0.5 / 0.03)² = (32.67)² ≈ 1067
→ 최소 1,068명의 표본이 필요하다
(실제 선거 여론조사에서 통상 1,000~1,500명을 조사하는 이유가 여기에 있다)
SE_max = √(0.5×0.5/n) = 0.5/√n
n ≥ (1.96 × 0.5 / 0.03)² = (32.67)² ≈ 1067
→ 최소 1,068명의 표본이 필요하다
(실제 선거 여론조사에서 통상 1,000~1,500명을 조사하는 이유가 여기에 있다)
6. σ를 모를 때의 신뢰 구간 — t분포 활용
현실에서 모표준편차 σ를 아는 경우는 드물다. σ 대신 표본 표준편차 s를 쓰면 t분포를 따르게 된다.
95% 신뢰 구간 (σ 모를 때): x̄ ± tα/2, n−1 · (s / √n)
tα/2, n−1: 자유도 (n−1)인 t분포의 임계값
n이 클수록 t분포 → Z분포로 수렴 (n≥30이면 Z분포 근사 허용)
n이 클수록 t분포 → Z분포로 수렴 (n≥30이면 Z분포 근사 허용)
📌 Z분포 vs t분포 선택 기준
• σ 알고 있거나 n ≥ 30: Z분포 사용 (zα/2)
• σ 모르고 n < 30: t분포 사용 (tα/2, n−1)
• n이 작을수록 t분포의 꼬리가 두꺼워져 신뢰 구간이 더 넓어진다 = 작은 표본에서의 불확실성을 구간에 반영한다
• σ 알고 있거나 n ≥ 30: Z분포 사용 (zα/2)
• σ 모르고 n < 30: t분포 사용 (tα/2, n−1)
• n이 작을수록 t분포의 꼬리가 두꺼워져 신뢰 구간이 더 넓어진다 = 작은 표본에서의 불확실성을 구간에 반영한다
t분포 신뢰 구간
카페인 함량 예시 재계산 (σ 모르는 경우)
앞서 커피숍 예시: n=10, x̄=141.5mg, s≈2.92mg
σ를 모르고 n=10(소표본)이므로 t분포 사용. 자유도 = 10−1 = 9
t0.025, 9 = 2.262 (t표에서)
σ를 모르고 n=10(소표본)이므로 t분포 사용. 자유도 = 10−1 = 9
t0.025, 9 = 2.262 (t표에서)
SE = s/√n = 2.92/√10 ≈ 0.923mg
95% 신뢰 구간: 141.5 ± 2.262 × 0.923
= 141.5 ± 2.09
= (139.41mg, 143.59mg)
※ Z분포로 계산했다면: 141.5 ± 1.96×0.923 = (139.69, 143.31) → t분포가 더 넓다
95% 신뢰 구간: 141.5 ± 2.262 × 0.923
= 141.5 ± 2.09
= (139.41mg, 143.59mg)
※ Z분포로 계산했다면: 141.5 ± 1.96×0.923 = (139.69, 143.31) → t분포가 더 넓다
📌 핵심 정리
- 모수(Parameter): 모집단의 고정된 특성값 (μ, σ², p)
- 통계량(Statistic): 표본에서 계산한 추정값 (x̄, s², p̂)
- 점 추정: 모수를 하나의 숫자로 추정. 불확실성 표현 불가
- 구간 추정: 신뢰 구간 = x̄ ± zα/2·(σ/√n). 신뢰 수준↑ → 구간 넓어짐
- 95% 신뢰 구간: 이 방법으로 100번 반복하면 95번은 모수를 포함
- 오차 한계(ME): zα/2·σ/√n — n↑이면 ME↓
- 표준오차(SE): σ/√n — 추정량의 표준편차, 정밀도 지표
- SE vs SD: SD는 데이터 산포 / SE는 추정의 정밀도
- 필요 표본 크기: n ≥ (zα/2·σ/E)²
- σ 모를 때: s 대체 + t분포 사용 (자유도 n−1)
- 좋은 추정량 조건: 불편성·효율성·일치성·충분성
728x90
'수학&통계학' 카테고리의 다른 글
| t분포를 활용한 가설 검정 (0) | 2026.05.13 |
|---|---|
| 통계적 가설 검정 (0) | 2026.05.13 |
| 데이터 변환 및 관계 분석 (0) | 2026.05.11 |
| 기술 통계량 (산포 측도) (0) | 2026.05.11 |
| 기술 통계량 (중심 측도) (0) | 2026.05.11 |