본문 바로가기
수학&통계학

통계 개념(2) : 모집단과 표본, 표본추출

by 코스믹구구 2026. 5. 10.
728x90

여론조사 결과를 보면 항상 이런 문구가 붙어 있다.

"전국 성인 남녀 1,000명을 대상으로 조사한 결과..."

대한민국 성인 인구는 약 4,400만 명이다. 그런데 고작 1,000명을 조사한 결과로 어떻게 전체의 의견을 말할 수 있을까?

이 질문에 답하는 개념이 바로 모집단과 표본이다.

모집단(Population)이란?

모집단은 분석하고 연구하고자 하는 전체 집단을 의미한다.

  • 여론조사라면 → "전국 성인 남녀 전체"
  • 쇼핑몰 고객 분석이라면 → "해당 쇼핑몰의 전체 고객"

모집단의 특성을 수치로 표현한 것을 모수(Parameter)라고 한다. 전체 고객의 평균 구매금액, 전체 유권자의 특정 후보 지지율 같은 것들이 모수다.

⚠️ 주의
실무에서 "이번 달 마케팅 모수가 100만 명이다"처럼 쓰기도 하는데, 통계에서 말하는 모수는 데이터의 크기나 개수가 아니라 모집단의 특성을 나타내는 수치다. 시험이나 공식적인 자리에서는 원래 의미로 사용하는 것이 맞다.

 

표본(Sample)이란?

표본은 모집단에서 특정 방법을 통해 추출된 일부 집단을 의미한다. 여론조사에서 뽑은 1,000명이 바로 표본이다.

통계적 추정에서는 이 표본으로 계산한 통계량을 바탕으로 모집단의 모수를 유추하고, 모집단의 특성을 파악한다. 분석 과정에서 데이터에서 표본을 다시 추출하는 작업을 재표본 추출(Resampling)이라고 한다.

 

전수조사 vs 표본조사

구분 전수조사 (Census) 표본조사 (Sample Survey)
대상 모집단 전체 모집단 일부
정확도 가장 정확 추출 방법에 따라 다름
비용·시간 매우 많이 소요 상대적으로 절약
예시 인구주택총조사 여론조사, 품질 검사

 

반응형

표본 추출 방법 4가지

모집단을 대표할 수 있고 편향되지 않은 표본을 선택하기 위해 상황에 맞는 추출 방법을 쓰는 것이 중요하다.

① 단순 랜덤 추출 (Simple Random Sampling)

모든 개체가 동일한 확률로 선택되는 방법

가장 기본적이고 직관적인 방법으로, 번호를 매기고 완전히 무작위로 추출한다.

📌 예시: 전국 고등학교 500곳 중 50곳을 조사할 때, 1~500번 번호를 부여하고 무작위로 50개 번호를 뽑는다.
👍 장점
공정하고 편향 없음
👎 단점
소규모 그룹이 빠질 수 있음
② 계통 추출법 (Systematic Sampling)

첫 개체를 무작위로 선택한 뒤 일정 간격마다 추출

명단이 있을 때 빠르고 쉽게 적용할 수 있다.

📌 예시: 고객 명단 10,000명 중 1,000명을 뽑을 때
간격 = 10,000 ÷ 1,000 = 10
1~10번 중 하나를 무작위 선택(예: 3번) → 3, 13, 23, 33... 순으로 추출
👍 장점
빠르고 적용이 쉬움
👎 단점
명단에 패턴 있으면 편향 발생
③ 집락/군집 추출법 (Cluster Sampling)

그룹을 먼저 선택한 후 그룹 안에서 다시 추출

모집단이 지역적으로 넓게 분산되어 있을 때 유리하다.

📌 예시: 전국 편의점 직원 만족도 조사 시
전국 편의점을 지역별로 그룹화 → 무작위로 몇 개 지역 선택 → 선택된 지역 내 직원 추출
👍 장점
시간·비용 크게 절약
👎 단점
선택 안 된 집락은 조사 불가
④ 층화 추출법 (Stratified Sampling)

모집단을 층으로 나누고 각 층에서 따로 추출

소규모 그룹도 빠짐없이 반영하고 싶을 때 사용한다.

📌 예시: 전 직원 1,000명 만족도 조사 시
정규직(600명) / 계약직(300명) / 파견직(100명)으로 층 구분
각 층에서 비율에 맞게 60명 / 30명 / 10명 추출 → 총 100명
👍 장점
모든 층의 특성 균형있게 반영
👎 단점
층 구분 기준 설정이 필요
💡 실제 조사에서는 방법을 조합해서 사용하기도 한다.

 

예를 들어 전국 편의점 아르바이트생 근무 실태를 조사한다면, 먼저 전국 편의점을 광역시·도 단위로 묶어 집락 추출로 몇 개 지역을 선택하고, 선정된 지역 안에서 정규직·단기직·야간 전담으로 나눠 층화 추출로 각 그룹을 균형 있게 뽑는 방식으로 조합할 수 있다.

 

🤔 집락 추출 vs 층화 추출, 뭐가 다를까?

얼핏 보면 둘 다 "그룹으로 나눠서 뽑는다"는 점이 비슷해 보인다. 하지만 핵심 차이가 있다.

집락/군집 추출 그룹 자체를 통째로 선택하고, 선택된 그룹만 조사한다. 나머지 그룹은 아예 제외된다.

층화 추출 그룹을 나누되, 모든 그룹에서 골고루 추출한다. 어느 그룹도 빠지지 않는다.

 

예시)

전국 초등학교를 지역(서울 / 경기 / 부산 / 대구...)으로 나눈다고 할 때,

  • 집락 추출이라면 → 서울, 부산 두 지역만 무작위로 선택해서 그 안의 학교만 조사. 경기, 대구는 아예 포함되지 않음.
  • 층화 추출이라면 → 서울, 경기, 부산, 대구 모든 지역에서 각각 일정 수의 학교를 뽑아 조사. 전국 모든 지역이 반영됨.

정리하면 집락은 "대표 그룹을 골라 집중 조사", 층화는 "모든 그룹을 빠짐없이 반영" 이 목적이다.

 

언제 뭘 쓸까?

  • 비용·시간을 아끼는 게 우선이면 → 집락 추출 (일부 지역만 가면 되니까)
  • 모든 그룹이 균형 있게 포함되어야 하면 → 층화 추출 (소수 그룹도 빠지면 안 되니까)

 

📌 핵심 정리
  • 모집단: 연구하려는 전체 집단. 그 특성을 수치로 표현한 것이 모수
  • 표본: 모집단에서 뽑은 일부. 이 표본으로 모집단을 추론하는 것이 통계의 핵심
  • 전수조사: 전체 대상 조사. 정확하지만 비용·시간 소모 큼
  • 표본조사: 일부 대상 조사. 추출 방법이 신뢰도를 결정
  • 표본 추출 4가지: 단순 랜덤 → 계통 → 집락 → 층화, 상황에 맞게 선택
728x90