통계를 처음 공부하다 보면 비슷해 보이는 용어들이 한꺼번에 쏟아진다.
그중에서도 데이터(Data) 와 확률변수(Random Variable) 는 통계 전반에서 계속 등장하는 핵심 개념이다.
이 둘의 차이를 제대로 이해하고 나면 이후 통계 개념들이 훨씬 자연스럽게 연결된다.
데이터(Data, 자료)란?
데이터는 관심 대상의 상태나 현황에 대해 관찰이나 측정을 통해 기록·수집한 값들의 집합이다. 쉽게 말하면 현실에서 실제로 측정하거나 기록해서 얻은 값이다.
파일이나 데이터베이스 등에 실제로 저장되어 있고, 지금 이 순간에도 존재한다. 일반적인 통계에서 데이터는 관측치(행)와 변수(열)로 구성된 테이블 형태로 표현된다.
- 관측치(행): 각 사람, 각 제품, 각 거래 등 → 분석 대상 하나하나
- 변수(열): 나이, 성별, 구매금액 등 → 관측치의 특성
데이터 분석을 통해 관측치와 변수의 특성과 관계를 파악하고 정보를 추출할 수 있다.
상황에 따라 하나의 관측치나 하나의 변수를 데이터라고 부를 수도 있고, 관측치의 집합 전체를 데이터셋(Dataset) 이라고 표현하기도 한다.
확률변수(Random Variable)란?
확률변수는 확률 실험의 결과를 수치로 나타내는 변수다.
"확률 실험"이란 결과가 정해지지 않은 상황에서 어떤 시도를 하는 것이다. 주사위를 던지거나, 내일 날씨를 예측하거나, 고객이 구매를 할지 안 할지를 보는 것 모두 확률 실험이다. 이 결과를 수치로 표현한 것이 확률변수다.
확률변수는 관심 대상의 이론적인 상태나 불확실성을 포함한 미래·가상 상황을 다룰 때 활용한다. 실제로 존재하는 데이터와 달리 값이 고정적이지 않고 결정되어 있지 않다.
데이터와 확률변수, 어떻게 다를까?
이 둘의 가장 큰 차이는 실존 여부와 확실성이다.
배달 앱을 예시로 생각해보자.
확률변수로서의 배달 시간 — 지금 막 주문을 넣었다. 배달이 몇 분 만에 올지는 아직 모른다. 날씨, 거리, 라이더 상황에 따라 달라질 수 있고 값이 정해지지 않은 상태다. 이처럼 아직 결정되지 않은 불확실한 값을 확률변수로 표현한다.
데이터로서의 배달 시간 — 지난 한 달간 1,000건의 배달 기록이 있다. 각 주문마다 실제로 몇 분이 걸렸는지가 기록되어 있다. 이미 측정되어 파일에 저장된 이 값들이 데이터다.
정리하면 이렇다.
- 확률변수: 아직 결과가 나오기 전, 이론적 단계의 변수. 값이 고정되지 않고 불확실성이 있음
- 데이터: 이미 측정해서 기록한 실제 값. 현실에 존재하고 파일에 저장되어 있음
그럼 왜 확률변수라는 개념이 필요할까?
데이터가 이미 있는데 왜 굳이 이론적인 개념인 확률변수를 배워야 할까?
확률변수는 데이터가 없는 상황에서 미래를 예측하거나, 통계 검정을 수행하기 위해 필요하다.
예를 들어 내일 특정 상품의 판매량은 아직 기록되지 않은 값이다. 하지만 과거 판매 데이터를 바탕으로 확률변수를 정의하고 확률분포를 가정하면, 내일 판매량이 특정 범위에 들어올 확률을 계산할 수 있다.
머신러닝 알고리즘도 같은 원리다. 학습 데이터로 패턴을 익히고, 아직 정답을 모르는 새로운 데이터에 대해 예측을 수행하는 것이 확률변수의 개념과 연결된다.
또한 통계 검정에서는 "이 데이터가 특정 확률분포를 따르는지"를 확인하는 과정이 있는데, 이때도 확률변수의 개념이 바탕에 깔려 있다.
확률변수와 확률분포
확률변수를 정의하면 확률분포(Probability Distribution) 를 가정할 수 있다. 확률분포란 확률변수가 가질 수 있는 값들과 각 값이 나올 확률을 나타낸 것이다.
확률분포는 직접 설정할 수도 있고, 정규분포처럼 이미 수학적으로 정립된 기성 분포를 활용할 수도 있다.
예시
어떤 카페의 아메리카노 판매량을 하루 단위로 기록한다고 해보자. 오늘 판매량을 X라는 확률변수로 정의하면, X는 0잔부터 어떤 값이든 가질 수 있다.
과거 데이터를 바탕으로 "하루 평균 80잔, 표준편차 15잔"인 정규분포를 가정하면, "오늘 100잔 이상 팔릴 확률이 얼마인가"를 계산할 수 있다.
이것이 확률변수와 확률분포를 활용한 추론이다.
핵심 정리
데이터와 확률변수의 차이를 한 줄로 정리하면 이렇다.
데이터는 현실에 존재하는 값, 확률변수는 이론적으로 정의된 불확실한 변수다.
- 데이터: 실제로 측정·기록된 값. 관측치(행)와 변수(열)로 구성
- 확률변수: 이론적인 개념. 값이 고정되지 않고 불확실성을 포함
- 둘의 차이: 실존 여부와 확실성의 차이
통계를 배울 때 이 둘을 혼동하면 이후 개념들이 뒤섞여 어렵게 느껴진다. 데이터(소문자 x, y로 표기)와 확률변수(대문자 X, Y로 표기)를 구분하는 것도 그 이유에서다.
'수학&통계학' 카테고리의 다른 글
| 통계 개념 (3) : 측정과 척도 및 기타 용어 (0) | 2026.05.10 |
|---|---|
| 통계 개념(2) : 모집단과 표본, 표본추출 (0) | 2026.05.10 |
| 데이터 분석 (3) : 분석 방법 (0) | 2026.05.10 |
| 데이터 분석 (2) : 결측값, 이상값 처리 (0) | 2026.05.10 |
| 데이터 분석 (1) : 데이터 처리 (1) | 2026.05.10 |