기술 통계량 (중심 측도)

728x90

데이터를 처음 마주했을 때 가장 먼저 하는 질문은 "이 데이터의 중심이 어디야?"다.
중심 측도(Measure of Central Tendency)는 데이터의 전반적인 위치나 중심부를 숫자 하나로 요약한다.
대표값이라고도 부르며, 평균·중앙값·최빈값이 가장 많이 쓰인다.
세 가지가 같은 값을 가리킬 수도, 완전히 다른 위치를 가리킬 수도 있다는 게 핵심이다.

중심 측도란?

데이터 전체를 하나의 숫자로 대표하는 값을 대푯값(Representative Value)이라고 한다. 중심 측도는 그중에서도 데이터의 "중심"이 어디 있는가를 나타내는 값들이다.

① 평균 (Mean)

x̄ = (Σxᵢ) / n

모든 값을 더해
개수로 나눈 값

② 중앙값 (Median)

정렬 후 가운데 값

순서로 정한
정중앙 위치의 값

③ 최빈값 (Mode)

가장 자주 나오는 값

빈도가 가장 높은
값 (여러 개 가능)

① 평균 (Mean, 산술 평균)

정의와 공식

데이터의 모든 값을 더한 뒤 관측치 개수로 나눈 산술 평균(Arithmetic Mean)이다. 일반적으로 x̄(엑스 바)로 표현하며, 가장 직관적이고 널리 쓰이는 중심 측도다.

x̄ = (1/n) · Σᵢ₌₁ⁿ xᵢ = (x₁ + x₂ + ··· + xₙ) / n

n: 관측치(데이터) 개수 | xᵢ: i번째 데이터 값
확률분포의 기댓값 μ와 구별 필요 — μ는 모집단, x̄는 표본에서 계산된 값

계산 예시

📌 예시 데이터: 편의점 직원 7명의 일일 판매 건수

평균 = (12+15+18+20+22+24+80) / 7 = 191 / 7 ≈ 27.3건

일반 값

80: 이상치 — 평균을 크게 끌어올림

평균의 성질

편차의 합은 0: Σ(xᵢ − x̄) = 0. 평균은 데이터의 무게중심이다.
최소 제곱 성질: Σ(xᵢ − c)² 를 최소화하는 c = x̄. 분산 계산의 기준점이 되는 이유.
극단값에 민감: 이상치(outlier) 하나가 평균을 크게 왜곡할 수 있다.
유일하게 존재: 항상 하나의 값으로 정해진다.
모든 데이터를 반영: 값 하나하나가 모두 계산에 참여한다.

가중 평균 (Weighted Mean)

각 값마다 중요도(가중치)가 다를 때 사용한다.

x̄_w = Σ(wᵢ · xᵢ) / Σwᵢ

wᵢ: i번째 값의 가중치

평균

배달 앱 음식점 평점

A 음식점의 평점이 별 1~5점으로 구성된다. 리뷰가 100개인 음식점과 5개인 음식점의 평균을 단순히 합산하면 왜곡된다. 가중 평균을 써야 한다.

음식점 A: 리뷰 100개, 평균 4.2점 / 음식점 B: 리뷰 5개, 평균 4.8점
단순 평균: (4.2 + 4.8) / 2 = 4.5점 → 왜곡
가중 평균: (100×4.2 + 5×4.8) / 105 ≈ 4.23점 → 실제 반영

평균

기업 연봉 통계의 함정

스타트업 10명 직원의 월급(만원): 250, 260, 270, 280, 290, 300, 310, 320, 330, 2000(CEO)

평균 = (250+260+···+330+2000) / 10 = 486만원
→ "평균 연봉 486만원"이라는 수치는 실제 직원 대부분의 연봉(약 290만원대)과 크게 다르다.
→ 이처럼 극단값이 있을 때 평균은 대표성을 잃는다.

② 중앙값 (Median) — 중위수

정의

변수의 값들을 크기 순서대로 정렬했을 때 정중앙에 위치하는 값이다. 50번째 백분위수(P50), 2사분위수(Q2)와 같다.

계산 방법

n이 홀수: 중앙값 = (n+1)/2 번째 값
n이 짝수: 중앙값 = n/2번째와 (n/2)+1번째 값의 평균

반드시 오름차순 정렬 후 계산

📌 위 편의점 데이터로 중앙값 계산 (n=7, 홀수)

(7+1)/2 = 4번째 값 → 중앙값 = 20건

중앙값(20)은 이상치(80)의 영향을 받지 않는다

📌 짝수 데이터일 때 (n=6)

3번째(18)와 4번째(20)의 평균 → 중앙값 = (18+20)/2 = 19건

중앙값의 성질

이상치에 강건(Robust): 극단값 하나가 바뀌어도 중앙값은 거의 변하지 않는다.
순서 정보만 사용: 실제 값의 크기보다 순위를 활용한다.
왜도가 큰 분포에서 유용: 평균보다 실제 분포 중심을 더 잘 표현한다.
유일하게 존재: 항상 하나의 값(단, 짝수일 때는 두 값의 평균)으로 정해진다.

중앙값

부동산 매매가 통계

서울 아파트 거래 데이터에서 강남구 초고가 아파트 몇 건이 평균 매매가를 크게 끌어올린다. 정부와 부동산 연구소에서 "중위 매매가"를 사용하는 이유가 바로 여기에 있다.

평균 매매가: 극소수 초고가 거래 포함 → 실제 대부분 거래와 동떨어진 수치
중앙값 매매가: 가장 가운데 거래의 가격 → 전형적인 실거래 가격에 가까움

중앙값

넷플릭스 시청 시간 분석

사용자 1,000명의 일일 시청 시간 데이터. 대부분은 1~2시간이지만, 소수의 헤비 유저가 10시간 이상 시청해 평균을 끌어올린다.

평균 시청 시간: 3.2시간 → 헤비 유저 영향으로 높음
중앙값 시청 시간: 1.4시간 → 일반적인 사용자의 실제 패턴에 가까움
→ 콘텐츠 추천 알고리즘 설계 시 중앙값을 기준으로 삼는 것이 더 적합

③ 최빈값 (Mode)

정의

해당 변수에서 가장 자주 등장하는 값이다. 빈도(Frequency)가 가장 높은 값으로, 범주형 데이터에서도 사용할 수 있는 유일한 중심 측도다.

📌 예시 데이터: 고객 10명이 구매한 의류 사이즈

M이 4번으로 가장 많음 → 최빈값 = M

최빈값: M (4회)

최빈값의 특징

유일하지 않을 수 있다: 동일한 최고 빈도가 두 개 이상이면 최빈값이 여러 개다 (이봉 분포 등).
범주형 데이터에 유일하게 적용 가능: 혈액형, 직업 분류 등 숫자가 아닌 데이터에서도 사용.
극단값 영향 없음: 빈도 기반이라 이상치에 전혀 영향받지 않는다.
연속형 데이터에서는 부적합: 값이 모두 다를 경우 최빈값이 의미 없어진다. 이때는 구간으로 묶어 계산한다.
존재하지 않을 수도 있다: 모든 값이 한 번씩만 나타나면 최빈값이 없다.

❓ 최빈값이 여러 개면 어떻게 하나?

두 값의 빈도가 동일하게 가장 높으면 두 개 다 최빈값이다. 이를 이봉(bimodal) 분포라고 한다.
세 개 이상이면 다봉(multimodal) 분포.
예) {1, 1, 2, 2, 3} → 최빈값: 1과 2 (동시에 2회)

최빈값

편의점 최다 판매 상품 파악

하루 동안 편의점에서 판매된 상품 목록. 각 상품명은 범주형 데이터라 평균·중앙값을 쓸 수 없다.

커피 42개, 삼각김밥 38개, 컵라면 35개, 껌 12개...
→ 최빈값(가장 많이 팔린 상품) = 커피
→ 재고 발주량 결정, 진열 위치 배치에 최빈값을 활용

최빈값

유튜브 영상 길이 분석

특정 채널의 영상 길이(분) 분포: 5~10분대 영상이 압도적으로 많고, 1시간짜리 영상은 드물다.

평균 영상 길이: 18분 (긴 영상이 끌어올림)
중앙값: 9분
최빈값: 8분 (가장 많이 업로드된 길이)
→ 알고리즘 최적화나 콘텐츠 전략에는 최빈값이 가장 직접적인 정보

④ 평균 vs 중앙값 vs 최빈값 — 언제 무엇을 쓸까?

왜도에 따른 세 측도의 위치 관계

상황별 적합한 중심 측도

상황	추천 측도	이유
이상치 없는 연속형 데이터	평균	모든 값을 반영, 수학적 성질 우수
이상치 있는 데이터 (소득, 집값 등)	중앙값	극단값에 영향받지 않음
범주형 데이터 (혈액형, 직업 등)	최빈값	유일하게 적용 가능한 측도
가장 전형적인 패턴 파악	최빈값	가장 많이 나타나는 패턴을 직접 확인
분포가 대칭에 가까울 때	평균 = 중앙값	어느 쪽을 써도 유사한 결과
시험 점수, 생산량 등 통제된 환경	평균	이상치가 적고 정규분포에 가까움

💡 세 측도를 함께 보면 분포의 왜도를 파악할 수 있다
평균 > 중앙값: 오른쪽 꼬리가 있는 분포 (양의 왜도) — 소득, 자산 분포에서 흔함
평균 = 중앙값: 대칭 분포 — 정규분포가 대표적
평균 < 중앙값: 왼쪽 꼬리가 있는 분포 (음의 왜도) — 시험이 쉬워 고득점이 많을 때

⚠️ 표본 평균 x̄ vs 모집단 기댓값 μ 구분
x̄는 실제 수집한 표본 데이터로 계산한 값이고, μ는 이론적 확률분포의 기댓값이다.
표본이 클수록 x̄ → μ에 가까워진다 (대수의 법칙).
분석 보고서나 논문에서 두 기호의 차이를 명확히 구분해야 한다.

📌 핵심 정리

중심 측도: 데이터의 중심 위치를 요약. 평균·중앙값·최빈값이 대표적
평균(x̄): Σxᵢ/n. 모든 값 반영. 이상치에 민감. 편차의 합 = 0
가중 평균: Σ(wᵢxᵢ)/Σwᵢ. 값마다 중요도가 다를 때 사용
중앙값: 정렬 후 중앙 위치 값. 이상치에 강건. Q2 = P50과 동일
홀수 n: (n+1)/2번째 값 / 짝수 n: n/2번째와 (n/2)+1번째의 평균
최빈값: 가장 자주 나오는 값. 범주형 데이터에도 적용 가능. 여러 개일 수 있음
왜도와 세 측도 관계: 평균>중앙값>최빈값 → 양의 왜도(오른쪽 꼬리)
이상치 있을 때: 중앙값이 평균보다 대표성 높음
범주형 데이터: 최빈값만 사용 가능

728x90

'수학&통계학' 카테고리의 다른 글

데이터 변환 및 관계 분석 (0)	2026.05.11
기술 통계량 (산포 측도) (0)	2026.05.11
연속형 확률분포 : t분포, 카이제곱 분포, F분포 (0)	2026.05.11
연속형 확률분포 : 정규분포 (0)	2026.05.11
연속형 확률분포 : 균일분포, 지수분포 (0)	2026.05.11

구구 코스모스

기술 통계량 (중심 측도)

중심 측도란?