여론조사 결과를 보면 항상 이런 문구가 붙어 있다.
대한민국 성인 인구는 약 4,400만 명이다. 그런데 고작 1,000명을 조사한 결과로 어떻게 전체의 의견을 말할 수 있을까?
이 질문에 답하는 개념이 바로 모집단과 표본이다.
모집단(Population)이란?
모집단은 분석하고 연구하고자 하는 전체 집단을 의미한다.
- 여론조사라면 → "전국 성인 남녀 전체"
- 쇼핑몰 고객 분석이라면 → "해당 쇼핑몰의 전체 고객"
모집단의 특성을 수치로 표현한 것을 모수(Parameter)라고 한다. 전체 고객의 평균 구매금액, 전체 유권자의 특정 후보 지지율 같은 것들이 모수다.
표본(Sample)이란?
표본은 모집단에서 특정 방법을 통해 추출된 일부 집단을 의미한다. 여론조사에서 뽑은 1,000명이 바로 표본이다.
통계적 추정에서는 이 표본으로 계산한 통계량을 바탕으로 모집단의 모수를 유추하고, 모집단의 특성을 파악한다. 분석 과정에서 데이터에서 표본을 다시 추출하는 작업을 재표본 추출(Resampling)이라고 한다.

전수조사 vs 표본조사
| 구분 | 전수조사 (Census) | 표본조사 (Sample Survey) |
|---|---|---|
| 대상 | 모집단 전체 | 모집단 일부 |
| 정확도 | 가장 정확 | 추출 방법에 따라 다름 |
| 비용·시간 | 매우 많이 소요 | 상대적으로 절약 |
| 예시 | 인구주택총조사 | 여론조사, 품질 검사 |
표본 추출 방법 4가지
모집단을 대표할 수 있고 편향되지 않은 표본을 선택하기 위해 상황에 맞는 추출 방법을 쓰는 것이 중요하다.
모든 개체가 동일한 확률로 선택되는 방법
가장 기본적이고 직관적인 방법으로, 번호를 매기고 완전히 무작위로 추출한다.
첫 개체를 무작위로 선택한 뒤 일정 간격마다 추출
명단이 있을 때 빠르고 쉽게 적용할 수 있다.
간격 = 10,000 ÷ 1,000 = 10
1~10번 중 하나를 무작위 선택(예: 3번) → 3, 13, 23, 33... 순으로 추출
그룹을 먼저 선택한 후 그룹 안에서 다시 추출
모집단이 지역적으로 넓게 분산되어 있을 때 유리하다.
전국 편의점을 지역별로 그룹화 → 무작위로 몇 개 지역 선택 → 선택된 지역 내 직원 추출
모집단을 층으로 나누고 각 층에서 따로 추출
소규모 그룹도 빠짐없이 반영하고 싶을 때 사용한다.
정규직(600명) / 계약직(300명) / 파견직(100명)으로 층 구분
각 층에서 비율에 맞게 60명 / 30명 / 10명 추출 → 총 100명
예를 들어 전국 편의점 아르바이트생 근무 실태를 조사한다면, 먼저 전국 편의점을 광역시·도 단위로 묶어 집락 추출로 몇 개 지역을 선택하고, 선정된 지역 안에서 정규직·단기직·야간 전담으로 나눠 층화 추출로 각 그룹을 균형 있게 뽑는 방식으로 조합할 수 있다.
🤔 집락 추출 vs 층화 추출, 뭐가 다를까?
얼핏 보면 둘 다 "그룹으로 나눠서 뽑는다"는 점이 비슷해 보인다. 하지만 핵심 차이가 있다.
집락/군집 추출 그룹 자체를 통째로 선택하고, 선택된 그룹만 조사한다. 나머지 그룹은 아예 제외된다.
층화 추출 그룹을 나누되, 모든 그룹에서 골고루 추출한다. 어느 그룹도 빠지지 않는다.
예시)
전국 초등학교를 지역(서울 / 경기 / 부산 / 대구...)으로 나눈다고 할 때,
- 집락 추출이라면 → 서울, 부산 두 지역만 무작위로 선택해서 그 안의 학교만 조사. 경기, 대구는 아예 포함되지 않음.
- 층화 추출이라면 → 서울, 경기, 부산, 대구 모든 지역에서 각각 일정 수의 학교를 뽑아 조사. 전국 모든 지역이 반영됨.
정리하면 집락은 "대표 그룹을 골라 집중 조사", 층화는 "모든 그룹을 빠짐없이 반영" 이 목적이다.
언제 뭘 쓸까?
- 비용·시간을 아끼는 게 우선이면 → 집락 추출 (일부 지역만 가면 되니까)
- 모든 그룹이 균형 있게 포함되어야 하면 → 층화 추출 (소수 그룹도 빠지면 안 되니까)
- 모집단: 연구하려는 전체 집단. 그 특성을 수치로 표현한 것이 모수
- 표본: 모집단에서 뽑은 일부. 이 표본으로 모집단을 추론하는 것이 통계의 핵심
- 전수조사: 전체 대상 조사. 정확하지만 비용·시간 소모 큼
- 표본조사: 일부 대상 조사. 추출 방법이 신뢰도를 결정
- 표본 추출 4가지: 단순 랜덤 → 계통 → 집락 → 층화, 상황에 맞게 선택
'수학&통계학' 카테고리의 다른 글
| 통계 분석 : 확률과 확률분포 (0) | 2026.05.10 |
|---|---|
| 통계 개념 (3) : 측정과 척도 및 기타 용어 (0) | 2026.05.10 |
| 통계 개념 (1) : 자료와 확률변수 (0) | 2026.05.10 |
| 데이터 분석 (3) : 분석 방법 (0) | 2026.05.10 |
| 데이터 분석 (2) : 결측값, 이상값 처리 (0) | 2026.05.10 |