산포 측도(Measure of Dispersion)는 데이터의 흩어진 정도, 즉 변동성을 수치화한다.
중심이 같아도 산포가 다르면 완전히 다른 데이터일 수 있다.
이번 글에서는 범위, 사분위범위(IQR), 분산, 표준편차를 순서대로 정리한다.
산포 측도(Measure of Dispersion)란?
아래 두 데이터 세트를 비교해보자.
평균 = 50 | 최솟값~최댓값: 48~52
평균 = 50 | 최솟값~최댓값: 10~90
두 데이터의 평균은 모두 50으로 동일하다. 그런데 A는 50 근처에 모여 있고, B는 10부터 90까지 크게 퍼져 있다. 산포 측도가 없으면 이 차이를 수치로 표현할 수 없다.
① 범위 (Range)
정의와 공식
데이터에서 최댓값과 최솟값의 차이다. 계산이 가장 단순한 산포 측도다.
계산 예시
Range = 95 − 32 = 63만원
→ 단 하루의 이상치(95)가 범위를 63까지 끌어올린다.
범위의 장단점
- 계산이 가장 단순하고 직관적
- 데이터의 전체 스팬을 즉시 파악
- 소규모 데이터 빠른 비교에 유용
- 이상치 하나에 극도로 민감
- 중간 값들의 분포 전혀 반영 안 함
- 표본 크기가 클수록 범위는 커지는 경향
최고기온 32℃, 최저기온 17℃ → 범위(일교차) = 15℃
일교차가 크다 = 기온 산포가 크다는 의미로, 겉옷 챙기기의 기준이 된다.
{1, 50, 50, 50, 99}와 {1, 2, 50, 98, 99}는 범위가 모두 98로 같다.
그러나 첫 번째 데이터는 50에 집중되어 있고, 두 번째는 고르게 퍼져 있다.
→ 범위는 극단값만 보고 전체 분포 형태를 무시하는 한계가 있다.
② 사분위범위 (IQR, Interquartile Range)
정의와 공식
데이터를 크기 순으로 정렬했을 때 하위 25%(Q1)와 상위 25%(Q3) 사이의 범위다. 즉, 중앙 50% 데이터의 스팬이다.
Q1과 Q3 사이에 전체 데이터의 50%가 포함된다
Q1, Q2, Q3 계산 방법
STEP 2 중앙값(Q2) 위치 찾기: n이 홀수면 중앙값 제외, 짝수면 n/2로 분리
STEP 3 Q1 = 하위 절반 데이터의 중앙값
Q3 = 상위 절반 데이터의 중앙값
→ 교재·소프트웨어마다 계산법이 미세하게 다를 수 있다. (inclusive/exclusive 방식)
계산 예시
IQR = Q3 − Q1 = 28 − 15 = 13건
→ 중앙 50%의 직원들은 15~28건 사이에 분포한다.
IQR을 이용한 이상치(Outlier) 탐지
IQR의 가장 중요한 활용 중 하나가 이상치 탐지다. Tukey의 울타리(fence) 기준을 사용한다.
상한 울타리: Q3 + 1.5 × IQR
더 엄격한 기준: Q1 − 3×IQR 미만 / Q3 + 3×IQR 초과 → 극단 이상치(Extreme Outlier)
IQR = 13 | 하한 = 15 − 1.5×13 = 15 − 19.5 = −4.5
상한 = 28 + 1.5×13 = 28 + 19.5 = 47.5
→ −4.5 ~ 47.5 범위를 벗어나는 값이 이상치. 현재 데이터에는 이상치 없음.
박스플롯(Box Plot) — IQR의 시각화
IQR은 박스플롯의 핵심 구성 요소다. 박스의 너비가 IQR을 나타내며, 수염(whisker)이 울타리 범위까지 뻗는다.

평균 = 약 11.9시간 → 사고 건 하나에 오염
IQR 기반 분석으로 정상 배송 범위를 파악한다.
이상치 기준: 10.5 + 1.5×5 = 18시간 초과 → 48시간은 이상치
→ 이상치 제외 후 정상 배송 IQR: 5~10.5시간
③ 분산 (Variance)
왜 분산이 필요한가?
범위와 IQR은 특정 위치의 두 값 차이만 본다. 나머지 데이터는 무시된다. 분산은 모든 데이터가 평균에서 얼마나 떨어져 있는지를 하나의 수치로 종합한다.
Σ(xᵢ − x̄) = 0 → 항상 0 (양수·음수 상쇄)
→ 평균은 데이터의 무게중심이라 편차의 합은 반드시 0이 된다. 해결책: 편차를 제곱한다
(xᵢ − x̄)² → 항상 양수 + 평균에서 멀수록 더 큰 가중치 → 절댓값 대신 제곱을 쓰는 이유: 미분 가능해 수학적 처리가 유리
모분산 vs 표본분산
표본 평균 x̄를 먼저 계산하고 나면 n개 데이터 중 n−1개만 자유롭게 변할 수 있다.
마지막 1개는 x̄와 나머지 값들로 이미 결정되기 때문이다.
n으로 나누면 모분산보다 체계적으로 작게 추정되는 편의(bias)가 발생한다.
(n−1)로 나누면 이 편의가 제거되어 불편 추정량(Unbiased Estimator)이 된다.
→ 이를 베셀 보정(Bessel's Correction)이라고 한다.
계산 예시
편차의 합 = −4−1+0+3+2 = 0 ✓
편차 제곱 16, 1, 0, 9, 4 → 합계 = 30
모분산 σ² = 30 / 5 = 6
표본분산 s² = 30 / (5−1) = 30 / 4 = 7.5
계산 공식 (전개형)
아래 형태가 실제 계산에서 더 편리하게 쓰인다.
각 값의 제곱 합에서 평균의 보정값을 빼는 방식 — 컴퓨터 계산에도 이 형태가 자주 쓰인다
분산의 성질
데이터가 "만원" 단위라면 분산의 단위는 "만원²"이 된다.
이는 직관적으로 해석하기 어렵다. 그래서 분산의 제곱근인 표준편차를 함께 사용한다.
A 주식: 평균 8%, 분산 4 / B 주식: 평균 8%, 분산 36
평균 수익률은 같지만 분산이 다르다.
B 주식: 분산 36 → 수익률 변동이 크다 = 리스크가 높다
→ 동일한 기대 수익이라면 분산이 작은 A 주식이 안전한 선택
④ 표준편차 (Standard Deviation)
정의와 공식
분산의 양의 제곱근이다. 원래 데이터와 같은 단위를 가지므로 직접 해석이 가능하다.
표준편차의 직관적 의미
→ 엄밀히는 제곱 평균이지만, 개념적으로 이렇게 이해하면 된다. 위 예시 적용 모표준편차 σ = √6 ≈ 2.45건
표본표준편차 s = √7.5 ≈ 2.74건
→ 직원들의 판매 건수가 평균(8건)에서 약 2.45~2.74건씩 떨어져 있다고 해석
표준편차와 정규분포의 관계
정규분포에서 표준편차는 분포의 모양을 결정한다. 68-95-99.7 규칙에 따라 표준편차 구간이 확률로 해석된다.
📌 정규분포에서 표준편차 구간별 확률
−2σ −σ μ +σ +2σ 68.3% 95.4%변동계수 (CV, Coefficient of Variation)
단위가 다른 두 데이터의 산포를 비교할 때는 표준편차를 평균으로 나눈 변동계수(CV)를 사용한다.
CV가 클수록 평균 대비 변동이 크다
표준편차만 보면 체중(10)이 키(8)보다 크다. 그런데 단위가 달라 직접 비교가 어렵다.
체중 CV = (10/65) × 100 ≈ 15.4%
→ 체중이 키보다 평균 대비 약 3배 더 변동이 크다
A: 평균 62분, 표준편차 8분 / B: 평균 62분, 표준편차 30분
B: 5분 보는 사람과 120분 보는 사람이 섞임 → 사용자 행동 다양
→ A는 정기 구독 유지에, B는 개인 맞춤 추천 알고리즘이 더 중요
⑤ 네 가지 산포 측도 종합 비교
| 구분 | 범위 | IQR | 분산 | 표준편차 |
|---|---|---|---|---|
| 공식 | Max−Min | Q3−Q1 | Σ(xᵢ−x̄)²/(n−1) | √분산 |
| 단위 | 원본과 동일 | 원본과 동일 | 원본² | 원본과 동일 |
| 이상치 민감도 | 매우 높음 | 낮음 (강건) | 높음 | 높음 |
| 사용 데이터 | 최솟·최댓값만 | Q1·Q3만 | 전체 | 전체 |
| 해석 용이성 | 매우 쉬움 | 쉬움 | 어려움(단위²) | 쉬움 |
| 활용 | 빠른 범위 파악 | 이상치 탐지·박스플롯 | 통계 이론·검정 | 정규분포·신뢰구간 |
• 이상치가 있거나 분포가 치우친 경우 → IQR (범위·분산은 오염됨)
• 정규분포에 가까운 경우 → 표준편차 (68-95-99.7 규칙 적용 가능)
• 서로 다른 단위의 데이터 산포 비교 → 변동계수(CV)
• 분산분석(ANOVA), 회귀분석 등 통계 검정 → 분산 (수식 유도에 필수)
📌 핵심 정리
- 범위(Range): Max − Min. 가장 단순하나 이상치에 매우 취약
- IQR: Q3 − Q1. 중앙 50% 범위. 이상치 강건. 박스플롯의 핵심
- 이상치 탐지: Q1−1.5×IQR 미만 / Q3+1.5×IQR 초과
- 모분산 σ²: (1/N)·Σ(xᵢ−μ)² | 표본분산 s²: (1/(n−1))·Σ(xᵢ−x̄)²
- (n−1) 사용 이유: 베셀 보정 — 표본분산의 편의(bias) 제거, 불편 추정량
- 표준편차: √분산. 원본과 같은 단위 → 직접 해석 가능
- 변동계수(CV): (s/x̄)×100%. 단위 달라도 산포 비교 가능
- 분산 성질: Var(X+c)=Var(X), Var(cX)=c²Var(X), 독립 합·차의 분산은 합산
- 이상치 있을 때: 범위·분산 대신 IQR을 우선 사용
'수학&통계학' 카테고리의 다른 글
| 통계적 추정 (0) | 2026.05.11 |
|---|---|
| 데이터 변환 및 관계 분석 (0) | 2026.05.11 |
| 기술 통계량 (중심 측도) (0) | 2026.05.11 |
| 연속형 확률분포 : t분포, 카이제곱 분포, F분포 (0) | 2026.05.11 |
| 연속형 확률분포 : 정규분포 (0) | 2026.05.11 |