본문 바로가기
반응형

IQR2

기술 통계량 (산포 측도) 평균이나 중앙값으로 데이터의 중심을 파악했다면, 다음 질문은 "데이터가 얼마나 퍼져 있는가?"다.산포 측도(Measure of Dispersion)는 데이터의 흩어진 정도, 즉 변동성을 수치화한다.중심이 같아도 산포가 다르면 완전히 다른 데이터일 수 있다.이번 글에서는 범위, 사분위범위(IQR), 분산, 표준편차를 순서대로 정리한다.산포 측도(Measure of Dispersion)란?아래 두 데이터 세트를 비교해보자.데이터 A48, 49, 50, 51, 52평균 = 50 | 최솟값~최댓값: 48~52데이터 B10, 30, 50, 70, 90평균 = 50 | 최솟값~최댓값: 10~90두 데이터의 평균은 모두 50으로 동일하다. 그런데 A는 50 근처에 모여 있고, B는 10부터 90까지 크게 퍼져.. 2026. 5. 11.
데이터 분석 (2) : 결측값, 이상값 처리 지난 글에서 데이터 처리의 8가지 작업을 살펴봤다. 그중 마지막에 간단히 언급했던 데이터 정제(Cleaning) 작업 중에서도 실무에서 가장 자주 등장하는 두 가지가 있다.결측값: 데이터에 값이 아예 없는 경우이상값: 값은 있지만 다른 데이터와 비교했을 때 극단적으로 튀는 경우둘 다 그냥 두면 분석 결과를 왜곡하지만, 처리 방식은 완전히 다르다. 하나씩 살펴보자. 결측값 처리 (Handling Missing Values)결측값이란?말 그대로 값이 없는 데이터다. 설문에서 응답하지 않은 항목, 센서 오작동으로 수집되지 않은 측정값, 시스템 오류로 누락된 기록 등 다양한 이유로 발생한다. 데이터에서는 보통 NULL, NaN, 빈칸 등으로 표현된다. 결측값이 있는 상태로 분석을 진행하면 계산 자체가 오류가 나.. 2026. 5. 10.
728x90
반응형