728x90
데이터를 처음 마주했을 때 가장 먼저 하는 질문은 "이 데이터의 중심이 어디야?"다.
중심 측도(Measure of Central Tendency)는 데이터의 전반적인 위치나 중심부를 숫자 하나로 요약한다.
대표값이라고도 부르며, 평균·중앙값·최빈값이 가장 많이 쓰인다.
세 가지가 같은 값을 가리킬 수도, 완전히 다른 위치를 가리킬 수도 있다는 게 핵심이다.
중심 측도(Measure of Central Tendency)는 데이터의 전반적인 위치나 중심부를 숫자 하나로 요약한다.
대표값이라고도 부르며, 평균·중앙값·최빈값이 가장 많이 쓰인다.
세 가지가 같은 값을 가리킬 수도, 완전히 다른 위치를 가리킬 수도 있다는 게 핵심이다.
중심 측도란?
데이터 전체를 하나의 숫자로 대표하는 값을 대푯값(Representative Value)이라고 한다. 중심 측도는 그중에서도 데이터의 "중심"이 어디 있는가를 나타내는 값들이다.
① 평균 (Mean)
x̄ = (Σxᵢ) / n
모든 값을 더해
개수로 나눈 값
개수로 나눈 값
② 중앙값 (Median)
정렬 후 가운데 값
순서로 정한
정중앙 위치의 값
정중앙 위치의 값
③ 최빈값 (Mode)
가장 자주 나오는 값
빈도가 가장 높은
값 (여러 개 가능)
값 (여러 개 가능)
① 평균 (Mean, 산술 평균)
정의와 공식
데이터의 모든 값을 더한 뒤 관측치 개수로 나눈 산술 평균(Arithmetic Mean)이다. 일반적으로 x̄(엑스 바)로 표현하며, 가장 직관적이고 널리 쓰이는 중심 측도다.
x̄ = (1/n) · Σᵢ₌₁ⁿ xᵢ = (x₁ + x₂ + ··· + xₙ) / n
n: 관측치(데이터) 개수 | xᵢ: i번째 데이터 값
확률분포의 기댓값 μ와 구별 필요 — μ는 모집단, x̄는 표본에서 계산된 값
확률분포의 기댓값 μ와 구별 필요 — μ는 모집단, x̄는 표본에서 계산된 값
계산 예시
📌 예시 데이터: 편의점 직원 7명의 일일 판매 건수
12
15
18
20
22
24
80
평균 = (12+15+18+20+22+24+80) / 7 = 191 / 7 ≈ 27.3건
평균의 성질
- 편차의 합은 0: Σ(xᵢ − x̄) = 0. 평균은 데이터의 무게중심이다.
- 최소 제곱 성질: Σ(xᵢ − c)² 를 최소화하는 c = x̄. 분산 계산의 기준점이 되는 이유.
- 극단값에 민감: 이상치(outlier) 하나가 평균을 크게 왜곡할 수 있다.
- 유일하게 존재: 항상 하나의 값으로 정해진다.
- 모든 데이터를 반영: 값 하나하나가 모두 계산에 참여한다.
가중 평균 (Weighted Mean)
각 값마다 중요도(가중치)가 다를 때 사용한다.
x̄_w = Σ(wᵢ · xᵢ) / Σwᵢ
wᵢ: i번째 값의 가중치
평균
배달 앱 음식점 평점
A 음식점의 평점이 별 1~5점으로 구성된다. 리뷰가 100개인 음식점과 5개인 음식점의 평균을 단순히 합산하면 왜곡된다. 가중 평균을 써야 한다.
음식점 A: 리뷰 100개, 평균 4.2점 / 음식점 B: 리뷰 5개, 평균 4.8점
단순 평균: (4.2 + 4.8) / 2 = 4.5점 → 왜곡
가중 평균: (100×4.2 + 5×4.8) / 105 ≈ 4.23점 → 실제 반영
단순 평균: (4.2 + 4.8) / 2 = 4.5점 → 왜곡
가중 평균: (100×4.2 + 5×4.8) / 105 ≈ 4.23점 → 실제 반영
평균
기업 연봉 통계의 함정
스타트업 10명 직원의 월급(만원): 250, 260, 270, 280, 290, 300, 310, 320, 330, 2000(CEO)
평균 = (250+260+···+330+2000) / 10 = 486만원
→ "평균 연봉 486만원"이라는 수치는 실제 직원 대부분의 연봉(약 290만원대)과 크게 다르다.
→ 이처럼 극단값이 있을 때 평균은 대표성을 잃는다.
→ "평균 연봉 486만원"이라는 수치는 실제 직원 대부분의 연봉(약 290만원대)과 크게 다르다.
→ 이처럼 극단값이 있을 때 평균은 대표성을 잃는다.
② 중앙값 (Median) — 중위수
정의
변수의 값들을 크기 순서대로 정렬했을 때 정중앙에 위치하는 값이다. 50번째 백분위수(P50), 2사분위수(Q2)와 같다.
계산 방법
n이 홀수: 중앙값 = (n+1)/2 번째 값
n이 짝수: 중앙값 = n/2번째와 (n/2)+1번째 값의 평균
n이 짝수: 중앙값 = n/2번째와 (n/2)+1번째 값의 평균
반드시 오름차순 정렬 후 계산
📌 위 편의점 데이터로 중앙값 계산 (n=7, 홀수)
12
15
18
20
22
24
80
(7+1)/2 = 4번째 값 → 중앙값 = 20건
📌 짝수 데이터일 때 (n=6)
12
15
18
20
22
24
3번째(18)와 4번째(20)의 평균 → 중앙값 = (18+20)/2 = 19건
중앙값의 성질
- 이상치에 강건(Robust): 극단값 하나가 바뀌어도 중앙값은 거의 변하지 않는다.
- 순서 정보만 사용: 실제 값의 크기보다 순위를 활용한다.
- 왜도가 큰 분포에서 유용: 평균보다 실제 분포 중심을 더 잘 표현한다.
- 유일하게 존재: 항상 하나의 값(단, 짝수일 때는 두 값의 평균)으로 정해진다.
중앙값
부동산 매매가 통계
서울 아파트 거래 데이터에서 강남구 초고가 아파트 몇 건이 평균 매매가를 크게 끌어올린다. 정부와 부동산 연구소에서 "중위 매매가"를 사용하는 이유가 바로 여기에 있다.
평균 매매가: 극소수 초고가 거래 포함 → 실제 대부분 거래와 동떨어진 수치
중앙값 매매가: 가장 가운데 거래의 가격 → 전형적인 실거래 가격에 가까움
중앙값 매매가: 가장 가운데 거래의 가격 → 전형적인 실거래 가격에 가까움
중앙값
넷플릭스 시청 시간 분석
사용자 1,000명의 일일 시청 시간 데이터. 대부분은 1~2시간이지만, 소수의 헤비 유저가 10시간 이상 시청해 평균을 끌어올린다.
평균 시청 시간: 3.2시간 → 헤비 유저 영향으로 높음
중앙값 시청 시간: 1.4시간 → 일반적인 사용자의 실제 패턴에 가까움
→ 콘텐츠 추천 알고리즘 설계 시 중앙값을 기준으로 삼는 것이 더 적합
중앙값 시청 시간: 1.4시간 → 일반적인 사용자의 실제 패턴에 가까움
→ 콘텐츠 추천 알고리즘 설계 시 중앙값을 기준으로 삼는 것이 더 적합
반응형
③ 최빈값 (Mode)
정의
해당 변수에서 가장 자주 등장하는 값이다. 빈도(Frequency)가 가장 높은 값으로, 범주형 데이터에서도 사용할 수 있는 유일한 중심 측도다.
📌 예시 데이터: 고객 10명이 구매한 의류 사이즈
S
M
M
M
M
L
L
L
XL
XL
M이 4번으로 가장 많음 → 최빈값 = M
최빈값의 특징
- 유일하지 않을 수 있다: 동일한 최고 빈도가 두 개 이상이면 최빈값이 여러 개다 (이봉 분포 등).
- 범주형 데이터에 유일하게 적용 가능: 혈액형, 직업 분류 등 숫자가 아닌 데이터에서도 사용.
- 극단값 영향 없음: 빈도 기반이라 이상치에 전혀 영향받지 않는다.
- 연속형 데이터에서는 부적합: 값이 모두 다를 경우 최빈값이 의미 없어진다. 이때는 구간으로 묶어 계산한다.
- 존재하지 않을 수도 있다: 모든 값이 한 번씩만 나타나면 최빈값이 없다.
❓ 최빈값이 여러 개면 어떻게 하나?
두 값의 빈도가 동일하게 가장 높으면 두 개 다 최빈값이다. 이를 이봉(bimodal) 분포라고 한다.세 개 이상이면 다봉(multimodal) 분포.
예) {1, 1, 2, 2, 3} → 최빈값: 1과 2 (동시에 2회)
최빈값
편의점 최다 판매 상품 파악
하루 동안 편의점에서 판매된 상품 목록. 각 상품명은 범주형 데이터라 평균·중앙값을 쓸 수 없다.
커피 42개, 삼각김밥 38개, 컵라면 35개, 껌 12개...
→ 최빈값(가장 많이 팔린 상품) = 커피
→ 재고 발주량 결정, 진열 위치 배치에 최빈값을 활용
→ 최빈값(가장 많이 팔린 상품) = 커피
→ 재고 발주량 결정, 진열 위치 배치에 최빈값을 활용
최빈값
유튜브 영상 길이 분석
특정 채널의 영상 길이(분) 분포: 5~10분대 영상이 압도적으로 많고, 1시간짜리 영상은 드물다.
평균 영상 길이: 18분 (긴 영상이 끌어올림)
중앙값: 9분
최빈값: 8분 (가장 많이 업로드된 길이)
→ 알고리즘 최적화나 콘텐츠 전략에는 최빈값이 가장 직접적인 정보
중앙값: 9분
최빈값: 8분 (가장 많이 업로드된 길이)
→ 알고리즘 최적화나 콘텐츠 전략에는 최빈값이 가장 직접적인 정보
④ 평균 vs 중앙값 vs 최빈값 — 언제 무엇을 쓸까?
왜도에 따른 세 측도의 위치 관계

상황별 적합한 중심 측도
| 상황 | 추천 측도 | 이유 |
|---|---|---|
| 이상치 없는 연속형 데이터 | 평균 | 모든 값을 반영, 수학적 성질 우수 |
| 이상치 있는 데이터 (소득, 집값 등) | 중앙값 | 극단값에 영향받지 않음 |
| 범주형 데이터 (혈액형, 직업 등) | 최빈값 | 유일하게 적용 가능한 측도 |
| 가장 전형적인 패턴 파악 | 최빈값 | 가장 많이 나타나는 패턴을 직접 확인 |
| 분포가 대칭에 가까울 때 | 평균 = 중앙값 | 어느 쪽을 써도 유사한 결과 |
| 시험 점수, 생산량 등 통제된 환경 | 평균 | 이상치가 적고 정규분포에 가까움 |
💡 세 측도를 함께 보면 분포의 왜도를 파악할 수 있다
평균 > 중앙값: 오른쪽 꼬리가 있는 분포 (양의 왜도) — 소득, 자산 분포에서 흔함
평균 = 중앙값: 대칭 분포 — 정규분포가 대표적
평균 < 중앙값: 왼쪽 꼬리가 있는 분포 (음의 왜도) — 시험이 쉬워 고득점이 많을 때
평균 > 중앙값: 오른쪽 꼬리가 있는 분포 (양의 왜도) — 소득, 자산 분포에서 흔함
평균 = 중앙값: 대칭 분포 — 정규분포가 대표적
평균 < 중앙값: 왼쪽 꼬리가 있는 분포 (음의 왜도) — 시험이 쉬워 고득점이 많을 때
⚠️ 표본 평균 x̄ vs 모집단 기댓값 μ 구분
x̄는 실제 수집한 표본 데이터로 계산한 값이고, μ는 이론적 확률분포의 기댓값이다.
표본이 클수록 x̄ → μ에 가까워진다 (대수의 법칙).
분석 보고서나 논문에서 두 기호의 차이를 명확히 구분해야 한다.
x̄는 실제 수집한 표본 데이터로 계산한 값이고, μ는 이론적 확률분포의 기댓값이다.
표본이 클수록 x̄ → μ에 가까워진다 (대수의 법칙).
분석 보고서나 논문에서 두 기호의 차이를 명확히 구분해야 한다.
📌 핵심 정리
- 중심 측도: 데이터의 중심 위치를 요약. 평균·중앙값·최빈값이 대표적
- 평균(x̄): Σxᵢ/n. 모든 값 반영. 이상치에 민감. 편차의 합 = 0
- 가중 평균: Σ(wᵢxᵢ)/Σwᵢ. 값마다 중요도가 다를 때 사용
- 중앙값: 정렬 후 중앙 위치 값. 이상치에 강건. Q2 = P50과 동일
- 홀수 n: (n+1)/2번째 값 / 짝수 n: n/2번째와 (n/2)+1번째의 평균
- 최빈값: 가장 자주 나오는 값. 범주형 데이터에도 적용 가능. 여러 개일 수 있음
- 왜도와 세 측도 관계: 평균>중앙값>최빈값 → 양의 왜도(오른쪽 꼬리)
- 이상치 있을 때: 중앙값이 평균보다 대표성 높음
- 범주형 데이터: 최빈값만 사용 가능
728x90
'수학&통계학' 카테고리의 다른 글
| 데이터 변환 및 관계 분석 (0) | 2026.05.11 |
|---|---|
| 기술 통계량 (산포 측도) (0) | 2026.05.11 |
| 연속형 확률분포 : t분포, 카이제곱 분포, F분포 (0) | 2026.05.11 |
| 연속형 확률분포 : 정규분포 (0) | 2026.05.11 |
| 연속형 확률분포 : 균일분포, 지수분포 (0) | 2026.05.11 |