기술 통계량 (산포 측도)

728x90

평균이나 중앙값으로 데이터의 중심을 파악했다면, 다음 질문은 "데이터가 얼마나 퍼져 있는가?"다.
산포 측도(Measure of Dispersion)는 데이터의 흩어진 정도, 즉 변동성을 수치화한다.
중심이 같아도 산포가 다르면 완전히 다른 데이터일 수 있다.
이번 글에서는 범위, 사분위범위(IQR), 분산, 표준편차를 순서대로 정리한다.

산포 측도(Measure of Dispersion)란?

아래 두 데이터 세트를 비교해보자.

데이터 A

48, 49, 50, 51, 52
평균 = 50 | 최솟값~최댓값: 48~52

데이터 B

10, 30, 50, 70, 90
평균 = 50 | 최솟값~최댓값: 10~90

두 데이터의 평균은 모두 50으로 동일하다. 그런데 A는 50 근처에 모여 있고, B는 10부터 90까지 크게 퍼져 있다. 산포 측도가 없으면 이 차이를 수치로 표현할 수 없다.

① 범위

Max − Min

가장 단순한 산포

② 사분위범위

Q3 − Q1

중앙 50% 범위

③ 분산

E[(X−μ)²]

편차 제곱 평균

④ 표준편차

√분산

단위 복원 산포

① 범위 (Range)

정의와 공식

데이터에서 최댓값과 최솟값의 차이다. 계산이 가장 단순한 산포 측도다.

Range = Max − Min

최댓값 − 최솟값

계산 예시

📌 예시: 카페 하루 매출(만원) 10일치

Range = 95 − 32 = 63만원
→ 단 하루의 이상치(95)가 범위를 63까지 끌어올린다.

범위의 장단점

장점

계산이 가장 단순하고 직관적
데이터의 전체 스팬을 즉시 파악
소규모 데이터 빠른 비교에 유용

단점

이상치 하나에 극도로 민감
중간 값들의 분포 전혀 반영 안 함
표본 크기가 클수록 범위는 커지는 경향

범위

기온 예보의 일교차

기상청에서 "오늘 일교차가 15도"라고 하면, 이것이 범위다.
최고기온 32℃, 최저기온 17℃ → 범위(일교차) = 15℃
일교차가 크다 = 기온 산포가 크다는 의미로, 겉옷 챙기기의 기준이 된다.

Range = 32 − 17 = 15℃

⚠️ 범위만으로는 부족하다
{1, 50, 50, 50, 99}와 {1, 2, 50, 98, 99}는 범위가 모두 98로 같다.
그러나 첫 번째 데이터는 50에 집중되어 있고, 두 번째는 고르게 퍼져 있다.
→ 범위는 극단값만 보고 전체 분포 형태를 무시하는 한계가 있다.

② 사분위범위 (IQR, Interquartile Range)

정의와 공식

데이터를 크기 순으로 정렬했을 때 하위 25%(Q1)와 상위 25%(Q3) 사이의 범위다. 즉, 중앙 50% 데이터의 스팬이다.

IQR = Q3 − Q1

Q1 (1사분위수): 하위 25% 경계값 | Q3 (3사분위수): 상위 25% 경계값
Q1과 Q3 사이에 전체 데이터의 50%가 포함된다

Q1, Q2, Q3 계산 방법

STEP 1 데이터를 오름차순 정렬
STEP 2 중앙값(Q2) 위치 찾기: n이 홀수면 중앙값 제외, 짝수면 n/2로 분리
STEP 3 Q1 = 하위 절반 데이터의 중앙값
Q3 = 상위 절반 데이터의 중앙값
→ 교재·소프트웨어마다 계산법이 미세하게 다를 수 있다. (inclusive/exclusive 방식)

계산 예시

📌 예시: 직원 9명의 월 판매 건수 (오름차순 정렬)

Q1 = (12+15+18)/3 기준 → 15 Q2 = 22 (5번째) Q3 = (25+28+30)/3 기준 → 28

IQR = Q3 − Q1 = 28 − 15 = 13건
→ 중앙 50%의 직원들은 15~28건 사이에 분포한다.

IQR을 이용한 이상치(Outlier) 탐지

IQR의 가장 중요한 활용 중 하나가 이상치 탐지다. Tukey의 울타리(fence) 기준을 사용한다.

하한 울타리: Q1 − 1.5 × IQR
상한 울타리: Q3 + 1.5 × IQR

이 범위를 벗어나는 값 → 이상치(Outlier)로 간주
더 엄격한 기준: Q1 − 3×IQR 미만 / Q3 + 3×IQR 초과 → 극단 이상치(Extreme Outlier)

📌 위 예시에서 이상치 탐지 적용

IQR = 13 | 하한 = 15 − 1.5×13 = 15 − 19.5 = −4.5
상한 = 28 + 1.5×13 = 28 + 19.5 = 47.5
→ −4.5 ~ 47.5 범위를 벗어나는 값이 이상치. 현재 데이터에는 이상치 없음.

박스플롯(Box Plot) — IQR의 시각화

IQR은 박스플롯의 핵심 구성 요소다. 박스의 너비가 IQR을 나타내며, 수염(whisker)이 울타리 범위까지 뻗는다.

IQR

쿠팡 배송 시간 품질 관리

배송 시간(시간): 3, 5, 6, 7, 8, 9, 10, 11, 48 (마지막은 지연 사고)
평균 = 약 11.9시간 → 사고 건 하나에 오염
IQR 기반 분석으로 정상 배송 범위를 파악한다.

Q1=5.5, Q3=10.5, IQR=5
이상치 기준: 10.5 + 1.5×5 = 18시간 초과 → 48시간은 이상치
→ 이상치 제외 후 정상 배송 IQR: 5~10.5시간

③ 분산 (Variance)

왜 분산이 필요한가?

범위와 IQR은 특정 위치의 두 값 차이만 본다. 나머지 데이터는 무시된다. 분산은 모든 데이터가 평균에서 얼마나 떨어져 있는지를 하나의 수치로 종합한다.

왜 편차를 단순 합산하면 안 되는가?
Σ(xᵢ − x̄) = 0 → 항상 0 (양수·음수 상쇄)
→ 평균은 데이터의 무게중심이라 편차의 합은 반드시 0이 된다. 해결책: 편차를 제곱한다
(xᵢ − x̄)² → 항상 양수 + 평균에서 멀수록 더 큰 가중치 → 절댓값 대신 제곱을 쓰는 이유: 미분 가능해 수학적 처리가 유리

모분산 vs 표본분산

모분산 σ² = (1/N) · Σ(xᵢ − μ)²

N: 모집단 전체 크기 | μ: 모평균

표본분산 s² = (1/(n−1)) · Σ(xᵢ − x̄)²

n: 표본 크기 | x̄: 표본 평균

💡 왜 표본분산은 n이 아니라 (n−1)로 나누는가? — 자유도(Degrees of Freedom)
표본 평균 x̄를 먼저 계산하고 나면 n개 데이터 중 n−1개만 자유롭게 변할 수 있다.
마지막 1개는 x̄와 나머지 값들로 이미 결정되기 때문이다.

n으로 나누면 모분산보다 체계적으로 작게 추정되는 편의(bias)가 발생한다.
(n−1)로 나누면 이 편의가 제거되어 불편 추정량(Unbiased Estimator)이 된다.
→ 이를 베셀 보정(Bessel's Correction)이라고 한다.

계산 예시

📌 5명의 일일 판매 건수: 4, 7, 8, 11, 10 (x̄ = 8)

평균 x̄ = 8

편차 계산 (4−8)=−4, (7−8)=−1, (8−8)=0, (11−8)=+3, (10−8)=+2
편차의 합 = −4−1+0+3+2 = 0 ✓
편차 제곱 16, 1, 0, 9, 4 → 합계 = 30
모분산 σ² = 30 / 5 = 6
표본분산 s² = 30 / (5−1) = 30 / 4 = 7.5

계산 공식 (전개형)

아래 형태가 실제 계산에서 더 편리하게 쓰인다.

s² = (1/(n−1)) · [Σxᵢ² − n·x̄²]

= (Σxᵢ² − (Σxᵢ)²/n) / (n−1)
각 값의 제곱 합에서 평균의 보정값을 빼는 방식 — 컴퓨터 계산에도 이 형태가 자주 쓰인다

분산의 성질

상수 이동 Var(X + c) = Var(X) → 모든 값에 같은 수를 더해도 퍼짐은 변하지 않는다. 상수배 Var(cX) = c² · Var(X) → 값을 c배 하면 분산은 c² 배. 표준편차는 |c|배. 독립 합 Var(X + Y) = Var(X) + Var(Y) (X, Y 독립) → 독립이 아니면 Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y) 독립 차 Var(X − Y) = Var(X) + Var(Y) (X, Y 독립) → 빼도 더해진다! 두 독립 변수의 합·차 분산은 항상 더한다.

⚠️ 분산의 단위 문제
데이터가 "만원" 단위라면 분산의 단위는 "만원²"이 된다.
이는 직관적으로 해석하기 어렵다. 그래서 분산의 제곱근인 표준편차를 함께 사용한다.

분산

두 투자 포트폴리오 리스크 비교

두 주식의 월 수익률(%)을 1년간 관찰했다.
A 주식: 평균 8%, 분산 4 / B 주식: 평균 8%, 분산 36
평균 수익률은 같지만 분산이 다르다.

A 주식: 분산 4 → 수익률이 평균 근처에 안정적으로 분포
B 주식: 분산 36 → 수익률 변동이 크다 = 리스크가 높다
→ 동일한 기대 수익이라면 분산이 작은 A 주식이 안전한 선택

④ 표준편차 (Standard Deviation)

정의와 공식

분산의 양의 제곱근이다. 원래 데이터와 같은 단위를 가지므로 직접 해석이 가능하다.

모표준편차 σ = √σ²

모집단 표준편차

표본표준편차 s = √s²

표본 표준편차

표준편차의 직관적 의미

의미 "데이터가 평균으로부터 평균적으로 얼마나 떨어져 있는가"
→ 엄밀히는 제곱 평균이지만, 개념적으로 이렇게 이해하면 된다. 위 예시 적용 모표준편차 σ = √6 ≈ 2.45건
표본표준편차 s = √7.5 ≈ 2.74건
→ 직원들의 판매 건수가 평균(8건)에서 약 2.45~2.74건씩 떨어져 있다고 해석

표준편차와 정규분포의 관계

정규분포에서 표준편차는 분포의 모양을 결정한다. 68-95-99.7 규칙에 따라 표준편차 구간이 확률로 해석된다.

📌 정규분포에서 표준편차 구간별 확률

−2σ −σ μ +σ +2σ 68.3% 95.4%

μ±σ 안에 68.3% μ±2σ 안에 95.4% μ±3σ 안에 99.7%

변동계수 (CV, Coefficient of Variation)

단위가 다른 두 데이터의 산포를 비교할 때는 표준편차를 평균으로 나눈 변동계수(CV)를 사용한다.

CV = (s / x̄) × 100 (%)

단위가 제거된 상대적 산포 지표
CV가 클수록 평균 대비 변동이 크다

변동계수

키(cm)와 체중(kg)의 산포 비교

성인 100명 데이터: 키(평균 170cm, 표준편차 8cm) / 체중(평균 65kg, 표준편차 10kg)
표준편차만 보면 체중(10)이 키(8)보다 크다. 그런데 단위가 달라 직접 비교가 어렵다.

키 CV = (8/170) × 100 ≈ 4.7%
체중 CV = (10/65) × 100 ≈ 15.4%
→ 체중이 키보다 평균 대비 약 3배 더 변동이 크다

표준편차

OTT 서비스 콘텐츠 시청 시간 분석

플랫폼 A와 B의 사용자 1인당 하루 시청 시간(분).
A: 평균 62분, 표준편차 8분 / B: 평균 62분, 표준편차 30분

A: 대부분 사용자가 62분 근처에서 시청 → 일관된 사용 패턴
B: 5분 보는 사람과 120분 보는 사람이 섞임 → 사용자 행동 다양
→ A는 정기 구독 유지에, B는 개인 맞춤 추천 알고리즘이 더 중요

⑤ 네 가지 산포 측도 종합 비교

구분	범위	IQR	분산	표준편차
공식	Max−Min	Q3−Q1	Σ(xᵢ−x̄)²/(n−1)	√분산
단위	원본과 동일	원본과 동일	원본²	원본과 동일
이상치 민감도	매우 높음	낮음 (강건)	높음	높음
사용 데이터	최솟·최댓값만	Q1·Q3만	전체	전체
해석 용이성	매우 쉬움	쉬움	어려움(단위²)	쉬움
활용	빠른 범위 파악	이상치 탐지·박스플롯	통계 이론·검정	정규분포·신뢰구간

💡 상황별 추천 산포 측도
• 이상치가 있거나 분포가 치우친 경우 → IQR (범위·분산은 오염됨)
• 정규분포에 가까운 경우 → 표준편차 (68-95-99.7 규칙 적용 가능)
• 서로 다른 단위의 데이터 산포 비교 → 변동계수(CV)
• 분산분석(ANOVA), 회귀분석 등 통계 검정 → 분산 (수식 유도에 필수)

📌 핵심 정리

범위(Range): Max − Min. 가장 단순하나 이상치에 매우 취약
IQR: Q3 − Q1. 중앙 50% 범위. 이상치 강건. 박스플롯의 핵심
이상치 탐지: Q1−1.5×IQR 미만 / Q3+1.5×IQR 초과
모분산 σ²: (1/N)·Σ(xᵢ−μ)² | 표본분산 s²: (1/(n−1))·Σ(xᵢ−x̄)²
(n−1) 사용 이유: 베셀 보정 — 표본분산의 편의(bias) 제거, 불편 추정량
표준편차: √분산. 원본과 같은 단위 → 직접 해석 가능
변동계수(CV): (s/x̄)×100%. 단위 달라도 산포 비교 가능
분산 성질: Var(X+c)=Var(X), Var(cX)=c²Var(X), 독립 합·차의 분산은 합산
이상치 있을 때: 범위·분산 대신 IQR을 우선 사용

728x90

'수학&통계학' 카테고리의 다른 글

통계적 추정 (0)	2026.05.11
데이터 변환 및 관계 분석 (0)	2026.05.11
기술 통계량 (중심 측도) (0)	2026.05.11
연속형 확률분포 : t분포, 카이제곱 분포, F분포 (0)	2026.05.11
연속형 확률분포 : 정규분포 (0)	2026.05.11

구구 코스모스

기술 통계량 (산포 측도)

산포 측도(Measure of Dispersion)란?

① 범위 (Range)

정의와 공식

계산 예시

범위의 장단점

② 사분위범위 (IQR, Interquartile Range)

정의와 공식

Q1, Q2, Q3 계산 방법

계산 예시

IQR을 이용한 이상치(Outlier) 탐지

박스플롯(Box Plot) — IQR의 시각화

③ 분산 (Variance)

왜 분산이 필요한가?

모분산 vs 표본분산

계산 예시

계산 공식 (전개형)

분산의 성질

④ 표준편차 (Standard Deviation)

정의와 공식

표준편차의 직관적 의미

표준편차와 정규분포의 관계

변동계수 (CV, Coefficient of Variation)

⑤ 네 가지 산포 측도 종합 비교

📌 핵심 정리

'수학&통계학' 카테고리의 다른 글

티스토리툴바

기술 통계량 (산포 측도)

산포 측도(Measure of Dispersion)란?

① 범위 (Range)

정의와 공식

계산 예시

범위의 장단점

② 사분위범위 (IQR, Interquartile Range)

정의와 공식

Q1, Q2, Q3 계산 방법

계산 예시

IQR을 이용한 이상치(Outlier) 탐지

박스플롯(Box Plot) — IQR의 시각화

③ 분산 (Variance)

왜 분산이 필요한가?

모분산 vs 표본분산

계산 예시

계산 공식 (전개형)

분산의 성질

④ 표준편차 (Standard Deviation)

정의와 공식

표준편차의 직관적 의미

표준편차와 정규분포의 관계

변동계수 (CV, Coefficient of Variation)

⑤ 네 가지 산포 측도 종합 비교

📌 핵심 정리

'수학&통계학' 카테고리의 다른 글

관련글

티스토리툴바