본문 바로가기
수학&통계학

기술 통계량 (산포 측도)

by 코스믹구구 2026. 5. 11.
728x90
평균이나 중앙값으로 데이터의 중심을 파악했다면, 다음 질문은 "데이터가 얼마나 퍼져 있는가?"다.
산포 측도(Measure of Dispersion)는 데이터의 흩어진 정도, 즉 변동성을 수치화한다.
중심이 같아도 산포가 다르면 완전히 다른 데이터일 수 있다.
이번 글에서는 범위, 사분위범위(IQR), 분산, 표준편차를 순서대로 정리한다.

산포 측도(Measure of Dispersion)란?

아래 두 데이터 세트를 비교해보자.

데이터 A
48, 49, 50, 51, 52
평균 = 50  |  최솟값~최댓값: 48~52
데이터 B
10, 30, 50, 70, 90
평균 = 50  |  최솟값~최댓값: 10~90

두 데이터의 평균은 모두 50으로 동일하다. 그런데 A는 50 근처에 모여 있고, B는 10부터 90까지 크게 퍼져 있다. 산포 측도가 없으면 이 차이를 수치로 표현할 수 없다.

① 범위
Max − Min
가장 단순한 산포
② 사분위범위
Q3 − Q1
중앙 50% 범위
③ 분산
E[(X−μ)²]
편차 제곱 평균
④ 표준편차
√분산
단위 복원 산포

 

① 범위 (Range)

정의와 공식

데이터에서 최댓값과 최솟값의 차이다. 계산이 가장 단순한 산포 측도다.

Range = Max − Min
최댓값 − 최솟값

 

계산 예시

📌 예시: 카페 하루 매출(만원) 10일치
32
35
38
40
42
44
46
48
50
95

Range = 95 − 32 = 63만원
→ 단 하루의 이상치(95)가 범위를 63까지 끌어올린다.

 

범위의 장단점

장점
  • 계산이 가장 단순하고 직관적
  • 데이터의 전체 스팬을 즉시 파악
  • 소규모 데이터 빠른 비교에 유용
단점
  • 이상치 하나에 극도로 민감
  • 중간 값들의 분포 전혀 반영 안 함
  • 표본 크기가 클수록 범위는 커지는 경향
범위
기온 예보의 일교차
기상청에서 "오늘 일교차가 15도"라고 하면, 이것이 범위다.
최고기온 32℃, 최저기온 17℃ → 범위(일교차) = 15℃
일교차가 크다 = 기온 산포가 크다는 의미로, 겉옷 챙기기의 기준이 된다.
Range = 32 − 17 = 15℃
⚠️ 범위만으로는 부족하다
{1, 50, 50, 50, 99}와 {1, 2, 50, 98, 99}는 범위가 모두 98로 같다.
그러나 첫 번째 데이터는 50에 집중되어 있고, 두 번째는 고르게 퍼져 있다.
→ 범위는 극단값만 보고 전체 분포 형태를 무시하는 한계가 있다.

 

② 사분위범위 (IQR, Interquartile Range)

정의와 공식

데이터를 크기 순으로 정렬했을 때 하위 25%(Q1)와 상위 25%(Q3) 사이의 범위다. 즉, 중앙 50% 데이터의 스팬이다.

IQR = Q3 − Q1
Q1 (1사분위수): 하위 25% 경계값  |  Q3 (3사분위수): 상위 25% 경계값
Q1과 Q3 사이에 전체 데이터의 50%가 포함된다

Q1, Q2, Q3 계산 방법

STEP 1 데이터를 오름차순 정렬
STEP 2 중앙값(Q2) 위치 찾기: n이 홀수면 중앙값 제외, 짝수면 n/2로 분리
STEP 3 Q1 = 하위 절반 데이터의 중앙값
Q3 = 상위 절반 데이터의 중앙값
→ 교재·소프트웨어마다 계산법이 미세하게 다를 수 있다. (inclusive/exclusive 방식)

 

계산 예시

📌 예시: 직원 9명의 월 판매 건수 (오름차순 정렬)
12
15
18
20
22
25
28
30
34
Q1 = (12+15+18)/3 기준 → 15 Q2 = 22 (5번째) Q3 = (25+28+30)/3 기준 → 28

IQR = Q3 − Q1 = 28 − 15 = 13건
→ 중앙 50%의 직원들은 15~28건 사이에 분포한다.

 

IQR을 이용한 이상치(Outlier) 탐지

IQR의 가장 중요한 활용 중 하나가 이상치 탐지다. Tukey의 울타리(fence) 기준을 사용한다.

하한 울타리: Q1 − 1.5 × IQR
상한 울타리: Q3 + 1.5 × IQR
이 범위를 벗어나는 값 → 이상치(Outlier)로 간주
더 엄격한 기준: Q1 − 3×IQR 미만 / Q3 + 3×IQR 초과 → 극단 이상치(Extreme Outlier)
📌 위 예시에서 이상치 탐지 적용

IQR = 13  |  하한 = 15 − 1.5×13 = 15 − 19.5 = −4.5
상한 = 28 + 1.5×13 = 28 + 19.5 = 47.5
→ −4.5 ~ 47.5 범위를 벗어나는 값이 이상치. 현재 데이터에는 이상치 없음.

 

박스플롯(Box Plot) — IQR의 시각화

IQR은 박스플롯의 핵심 구성 요소다. 박스의 너비가 IQR을 나타내며, 수염(whisker)이 울타리 범위까지 뻗는다.

 

IQR
쿠팡 배송 시간 품질 관리
배송 시간(시간): 3, 5, 6, 7, 8, 9, 10, 11, 48 (마지막은 지연 사고)
평균 = 약 11.9시간 → 사고 건 하나에 오염
IQR 기반 분석으로 정상 배송 범위를 파악한다.
Q1=5.5, Q3=10.5, IQR=5
이상치 기준: 10.5 + 1.5×5 = 18시간 초과 → 48시간은 이상치
→ 이상치 제외 후 정상 배송 IQR: 5~10.5시간

 

 

반응형

 

③ 분산 (Variance)

왜 분산이 필요한가?

범위와 IQR은 특정 위치의 두 값 차이만 본다. 나머지 데이터는 무시된다. 분산은 모든 데이터가 평균에서 얼마나 떨어져 있는지를 하나의 수치로 종합한다.

왜 편차를 단순 합산하면 안 되는가?
Σ(xᵢ − x̄) = 0  →  항상 0 (양수·음수 상쇄)
→ 평균은 데이터의 무게중심이라 편차의 합은 반드시 0이 된다. 해결책: 편차를 제곱한다
(xᵢ − x̄)²  →  항상 양수 + 평균에서 멀수록 더 큰 가중치 → 절댓값 대신 제곱을 쓰는 이유: 미분 가능해 수학적 처리가 유리

 

모분산 vs 표본분산

모분산 σ² = (1/N) · Σ(xᵢ − μ)²
N: 모집단 전체 크기  |  μ: 모평균
표본분산 s² = (1/(n−1)) · Σ(xᵢ − x̄)²
n: 표본 크기  |  x̄: 표본 평균
💡 왜 표본분산은 n이 아니라 (n−1)로 나누는가? — 자유도(Degrees of Freedom)
표본 평균 x̄를 먼저 계산하고 나면 n개 데이터 중 n−1개만 자유롭게 변할 수 있다.
마지막 1개는 x̄와 나머지 값들로 이미 결정되기 때문이다.

n으로 나누면 모분산보다 체계적으로 작게 추정되는 편의(bias)가 발생한다.
(n−1)로 나누면 이 편의가 제거되어 불편 추정량(Unbiased Estimator)이 된다.
→ 이를 베셀 보정(Bessel's Correction)이라고 한다.

 

계산 예시

📌 5명의 일일 판매 건수: 4, 7, 8, 11, 10 (x̄ = 8)
4
7
8
11
10
평균 x̄ = 8
편차 계산 (4−8)=−4,  (7−8)=−1,  (8−8)=0,  (11−8)=+3,  (10−8)=+2
편차의 합 = −4−1+0+3+2 = 0
편차 제곱 16,  1,  0,  9,  4  →  합계 = 30
모분산 σ² = 30 / 5 = 6
표본분산 s² = 30 / (5−1) = 30 / 4 = 7.5

 

계산 공식 (전개형)

아래 형태가 실제 계산에서 더 편리하게 쓰인다.

s² = (1/(n−1)) · [Σxᵢ² − n·x̄²]
= (Σxᵢ² − (Σxᵢ)²/n) / (n−1)
각 값의 제곱 합에서 평균의 보정값을 빼는 방식 — 컴퓨터 계산에도 이 형태가 자주 쓰인다

 

분산의 성질

상수 이동 Var(X + c) = Var(X) → 모든 값에 같은 수를 더해도 퍼짐은 변하지 않는다. 상수배 Var(cX) = c² · Var(X) → 값을 c배 하면 분산은 c² 배. 표준편차는 |c|배. 독립 합 Var(X + Y) = Var(X) + Var(Y)  (X, Y 독립) → 독립이 아니면 Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y) 독립 차 Var(X − Y) = Var(X) + Var(Y)  (X, Y 독립) → 빼도 더해진다! 두 독립 변수의 합·차 분산은 항상 더한다.
⚠️ 분산의 단위 문제
데이터가 "만원" 단위라면 분산의 단위는 "만원²"이 된다.
이는 직관적으로 해석하기 어렵다. 그래서 분산의 제곱근인 표준편차를 함께 사용한다.
분산
두 투자 포트폴리오 리스크 비교
두 주식의 월 수익률(%)을 1년간 관찰했다.
A 주식: 평균 8%, 분산 4  /  B 주식: 평균 8%, 분산 36
평균 수익률은 같지만 분산이 다르다.
A 주식: 분산 4 → 수익률이 평균 근처에 안정적으로 분포
B 주식: 분산 36 → 수익률 변동이 크다 = 리스크가 높다
→ 동일한 기대 수익이라면 분산이 작은 A 주식이 안전한 선택

 

④ 표준편차 (Standard Deviation)

정의와 공식

분산의 양의 제곱근이다. 원래 데이터와 같은 단위를 가지므로 직접 해석이 가능하다.

모표준편차 σ = √σ²
모집단 표준편차
표본표준편차 s = √s²
표본 표준편차

 

표준편차의 직관적 의미

의미 "데이터가 평균으로부터 평균적으로 얼마나 떨어져 있는가"
→ 엄밀히는 제곱 평균이지만, 개념적으로 이렇게 이해하면 된다. 위 예시 적용 모표준편차 σ = √6 ≈ 2.45건
표본표준편차 s = √7.5 ≈ 2.74건
→ 직원들의 판매 건수가 평균(8건)에서 약 2.45~2.74건씩 떨어져 있다고 해석

 

표준편차와 정규분포의 관계

정규분포에서 표준편차는 분포의 모양을 결정한다. 68-95-99.7 규칙에 따라 표준편차 구간이 확률로 해석된다.

📌 정규분포에서 표준편차 구간별 확률

−2σ −σ μ +σ +2σ 68.3% 95.4%
μ±σ 안에 68.3% μ±2σ 안에 95.4% μ±3σ 안에 99.7%

 

변동계수 (CV, Coefficient of Variation)

단위가 다른 두 데이터의 산포를 비교할 때는 표준편차를 평균으로 나눈 변동계수(CV)를 사용한다.

CV = (s / x̄) × 100 (%)
단위가 제거된 상대적 산포 지표
CV가 클수록 평균 대비 변동이 크다
변동계수
키(cm)와 체중(kg)의 산포 비교
성인 100명 데이터: 키(평균 170cm, 표준편차 8cm) / 체중(평균 65kg, 표준편차 10kg)
표준편차만 보면 체중(10)이 키(8)보다 크다. 그런데 단위가 달라 직접 비교가 어렵다.
키 CV = (8/170) × 100 ≈ 4.7%
체중 CV = (10/65) × 100 ≈ 15.4%
→ 체중이 키보다 평균 대비 약 3배 더 변동이 크다
표준편차
OTT 서비스 콘텐츠 시청 시간 분석
플랫폼 A와 B의 사용자 1인당 하루 시청 시간(분).
A: 평균 62분, 표준편차 8분  /  B: 평균 62분, 표준편차 30분
A: 대부분 사용자가 62분 근처에서 시청 → 일관된 사용 패턴
B: 5분 보는 사람과 120분 보는 사람이 섞임 → 사용자 행동 다양
→ A는 정기 구독 유지에, B는 개인 맞춤 추천 알고리즘이 더 중요

 

⑤ 네 가지 산포 측도 종합 비교

구분 범위 IQR 분산 표준편차
공식 Max−Min Q3−Q1 Σ(xᵢ−x̄)²/(n−1) √분산
단위 원본과 동일 원본과 동일 원본² 원본과 동일
이상치 민감도 매우 높음 낮음 (강건) 높음 높음
사용 데이터 최솟·최댓값만 Q1·Q3만 전체 전체
해석 용이성 매우 쉬움 쉬움 어려움(단위²) 쉬움
활용 빠른 범위 파악 이상치 탐지·박스플롯 통계 이론·검정 정규분포·신뢰구간
💡 상황별 추천 산포 측도
• 이상치가 있거나 분포가 치우친 경우 → IQR (범위·분산은 오염됨)
• 정규분포에 가까운 경우 → 표준편차 (68-95-99.7 규칙 적용 가능)
• 서로 다른 단위의 데이터 산포 비교 → 변동계수(CV)
• 분산분석(ANOVA), 회귀분석 등 통계 검정 → 분산 (수식 유도에 필수)

📌 핵심 정리

  • 범위(Range): Max − Min. 가장 단순하나 이상치에 매우 취약
  • IQR: Q3 − Q1. 중앙 50% 범위. 이상치 강건. 박스플롯의 핵심
  • 이상치 탐지: Q1−1.5×IQR 미만 / Q3+1.5×IQR 초과
  • 모분산 σ²: (1/N)·Σ(xᵢ−μ)²  |  표본분산 s²: (1/(n−1))·Σ(xᵢ−x̄)²
  • (n−1) 사용 이유: 베셀 보정 — 표본분산의 편의(bias) 제거, 불편 추정량
  • 표준편차: √분산. 원본과 같은 단위 → 직접 해석 가능
  • 변동계수(CV): (s/x̄)×100%. 단위 달라도 산포 비교 가능
  • 분산 성질: Var(X+c)=Var(X), Var(cX)=c²Var(X), 독립 합·차의 분산은 합산
  • 이상치 있을 때: 범위·분산 대신 IQR을 우선 사용
728x90