본문 바로가기
수학&통계학

통계 개념 (3) : 측정과 척도 및 기타 용어

by 코스믹구구 2026. 5. 10.
728x90

📏 측정과 척도

① 측정(Measurement)이란?

측정이란 현실 세계의 특성이나 현상을 수치로 변환하는 과정이다.
예를 들어 "고객 만족도를 5점 척도로 조사한다"거나, "배송 시간을 분 단위로 기록한다"는 것이 모두 측정이다.

단순히 숫자를 매기는 게 아니라, 일정한 규칙에 따라 관찰값을 수치나 기호로 표현하는 것이라는 점이 중요하다. 이 규칙의 수준에 따라 척도(Scale)가 달라진다.

② 척도(Scale)란?

척도는 관심 대상의 속성을 수치로 표현하기 위해 정의한 기준 체계다.
단위(unit)와 함께 활용되며, 어떤 척도를 쓰느냐에 따라 가능한 분석 방법이 달라진다.

💡 왜 척도가 중요할까?
예를 들어 "혈액형 A형 = 1, B형 = 2, O형 = 3"으로 코딩했다고 해서 O형이 A형의 3배인 건 아니다.
이처럼 척도의 종류를 모르고 평균이나 곱셈을 쓰면 의미 없는 분석이 된다.

③ 척도의 종류

척도는 크게 질적 데이터(Qualitative Data)양적 데이터(Quantitative Data)로 나뉘며, 각각 아래 4가지로 세분된다.

질적 데이터
명목척도 (Nominal Scale)
단순히 범주를 구별하기 위해 숫자를 부여한다.
숫자 자체에 크기나 순서의 의미가 없다.
📌 예시: 혈액형(A=1, B=2, O=3, AB=4), 직업 분류, 지역 코드
질적 데이터
순서척도 (Ordinal Scale)
범주 간에 순서(크고 작음)가 의미를 가진다.
그러나 간격이 동일하다고 볼 수 없다.
📌 예시: 앱 평점 1~5점, 학점(A/B/C), 군 계급, 운동 강도(하/중/상)
양적 데이터
구간척도 (Interval Scale)
순서도 있고 값의 간격(차이)도 의미가 있다.
단, 절대적 영점(0)이 없다. 두 값의 비율은 의미가 없다.
📌 예시: 섭씨 온도(0℃가 '없음'을 뜻하지 않음), IQ, 시험 편차점수
양적 데이터
비율척도 (Ratio Scale)
구간척도에 더해 절대적 영점(0)이 존재한다.
두 값의 비율도 의미가 있다. 사칙연산 모두 적용 가능.
📌 예시: 키, 몸무게, 연봉, 판매량, 거리 (0이 '없음'을 의미)
구분 척도 순서 균등간격 절대영점 예시
질적 데이터 명목척도 혈액형, 직업
순서척도 앱 평점, 학점
양적 데이터 구간척도 섭씨온도, IQ
비율척도 키, 몸무게, 연봉

④ 척도 판별하는 법

관측값을 더했을 때 의미가 있는가?
NO ↓
질적 데이터
값의 순서가 의미 없는가?
YES ↓
명목 척도
NO ↓
순서 척도
YES ↓
양적 데이터
두 값의 비율에 의미가 있는가?
(0이 '없음'을 뜻하는가?)
YES ↓
비율 척도
NO ↓
구간 척도
⚠️ 주의: 현실에서 척도 경계는 흐릿하다
이론상 순서척도인 5점 만족도 조사를 실무에서는 평균을 내며 구간척도처럼 활용하는 경우가 많다. ADsP 시험에서는 이론적 정의에 따라 판단하는 것이 원칙이지만, 실제 분석에서는 데이터의 맥락과 목적에 따라 유연하게 적용하기도 한다는 점을 알아두자.

 

반응형

 

📝 용어와 표기법

1) 변수의 개수 관련 표현

데이터는 1개 이상의 변수(Variable)로 구성된다. 분석에 활용하는 변수의 개수에 따라 다양한 용어가 사용된다.

① 단변량 vs 다변량 (종속변수 기준)

변수 1개
단변량 (Univariate)
분석 대상 변수가 1개. 예) 월 판매량 하나만 분석
변수 2개
이변량 (Bivariate)
변수가 2개. 예) 광고비 ↔ 매출
변수 2개 이상
다변량 (Multivariate)
변수가 여러 개. 예) 날씨·요일·시간대별 수요 예측
📌 참고: 단변량 / 다변량은 보통 y(종속변수)의 개수 기준
y가 1개면 단변량, 2개 이상이면 다변량으로 구분하는 경우가 많다.

② 단순(Simple) vs 다중(Multiple) — 독립변수 기준

x(독립변수)의 개수에 따라 분류한다. 예를 들어 회귀분석에서 독립변수가 1개면 단순 회귀, 2개 이상이면 다중 회귀라고 부른다. '다차원(multi-dimensional)'이라고도 표현한다.

③ -sample 과 -way

통계 검정에서 분석 변수의 수 뒤에 sample이나 way를 붙여 표현하기도 한다.

  • 일표본(one sample) / 이표본(two sample)
  • 일원(one-way) / 이원(two-way) — 예: 일원분산분석, 이원분산분류

숫자(일/이)는 해당 분석에서 활용하는 변수가 한 개 혹은 두 개라는 의미다.

2) 데이터 표기법(Notation)

통계에서는 수식을 통해 개념을 일반화하기 위해 정해진 표기 규칙을 따른다. 책이나 분야에 따라 다소 차이가 있을 수 있으나, 아래 기준이 일반적으로 많이 쓰인다.

① 확률변수 vs 데이터 구분

■ 확률변수 (이론적 개념, 가상의 대상)
대문자 X, Y 등으로 표현
특정 값: 소문자 x, k 등, 그리스어 소문자 β, μ, σ, ρ 등

■ 실제 데이터 (관측된 값)
굵게 표현한 대문자 X, Y 또는 소문자 x, y 등
계산된 통계량: 소문자 a, b, m, s, r 등
추정값(hat): β̂ 처럼 소문자에 ^ 기호 추가
💡 왜 이렇게 구분할까?
확률변수는 "이론적으로 가능한 값의 범위"를 나타내고, 데이터는 "실제로 관측된 값"이다. 이 둘을 표기법으로 구분해두면, 수식만 봐도 이론적 설명인지 실제 계산인지 알 수 있다. ADsP 문제에서 β와 β̂의 차이, X와 x의 차이가 나오면 이 맥락을 떠올리자.

② 데이터의 변수와 관측치 표기

데이터는 보통 n개의 관측치(행)p개의 변수(열)로 구성된다고 가정한다.

  • 변수 x의 i번째 관측치: xi
  • x1 = 첫 번째 관측치, xn = 마지막 관측치

변수 x 전체를 벡터로 표현하면 아래와 같다.

x = [x₁, x₂, x₃, ... , xn-1, xn]T
(열벡터 형태 — n개의 관측치로 구성)

두 변수 x와 y가 함께 있으면 행렬로 표현할 수 있다.

[x   y] = ⎡ x₁   y₁ ⎤
⎢ x₂   y₂ ⎥
⎢ x₃   y₃ ⎥
⎢ ⋮    ⋮ ⎥
⎣ xₙ   yₙ ⎦
(n행 2열 행렬 — 두 변수의 관측치 묶음)

③ 합계 기호 Σ (시그마)

데이터의 모든 관측치를 더하는 합계(summation)를 표현할 때는 S에 대응하는 그리스어 대문자 Σ(시그마)를 사용한다.

Σi=1n xi = x₁ + x₂ + x₃ + ··· + xn-1 + xn
i가 1부터 n까지 모든 x값을 더한다는 의미
📌 자주 나오는 표현 정리
Σxi : x의 합계
Σxi2 : x²의 합계 (분산 계산 시 자주 등장)
(Σxi : x의 합계를 제곱한 것 — 위와 다름에 주의!

📌 핵심 정리

  • 측정: 현상을 일정 규칙에 따라 수치/기호로 변환하는 과정
  • 척도 4종: 명목(범주 구별) → 순서(서열 의미) → 구간(균등 간격, 영점 없음) → 비율(절대 영점 존재)
  • 질적 데이터: 명목척도·순서척도 / 양적 데이터: 구간척도·비율척도
  • 단변량/다변량: y(종속변수) 개수 기준 / 단순/다중: x(독립변수) 개수 기준
  • 대문자(X, Y): 확률변수 / 소문자(x, y): 실제 데이터 관측치
  • xi: i번째 관측치 / Σ: 합계 기호 (시그마)
  • ADsP는 분야마다 표기법이 다를 수 있으므로 맥락 파악이 중요
728x90