본문 바로가기
수학&통계학

통계 분석 : 확률과 확률분포

by 코스믹구구 2026. 5. 10.
728x90

🎲 확률(Probability)

① 확률이란?

확률은 어떤 사건이 발생할 가능성을 0과 1 사이의 값으로 나타낸 것이다. 0은 절대 일어나지 않음, 1은 반드시 일어남을 의미한다.

이론적으로는 모든 가능한 결과의 집합인 표본 공간(Ω) 안에서, 특정 사건 A가 차지하는 비율로 정의한다.

P(A) = n(A) / n(Ω)
n(Ω): 표본 공간의 원소 수  |  n(A): 사건 A에 해당하는 원소 수

모든 결과가 동일한 확률로 발생하는 경우엔 경우의 수로도 계산할 수 있다.

P(A) = (사건 A에 해당하는 경우의 수) / (모든 가능한 경우의 수)
💡 집합 기호로 이해하는 확률 표현
A ∩ B (교집합): 두 사건이 동시에 발생 → 확률 P(A∩B)
A ∪ B (합집합): 두 사건 중 하나라도 발생 → 확률 P(A∪B)

 

② 조건부 확률(Conditional Probability)

특정 조건이 주어졌을 때, 또 다른 사건이 발생할 확률이다. 사건 A가 이미 발생했다는 전제 아래 사건 B가 발생할 확률을 P(B|A)라고 표기한다.

P(B|A) = n(A∩B) / n(A) = P(A∩B) / P(A)
"A가 발생했을 때 B가 발생할 확률" — A를 새로운 표본 공간으로 보는 것
💡 실생활 예시
온라인 쇼핑몰에서 어떤 고객이 이미 장바구니에 상품을 담았다(사건 A)고 할 때, 그 고객이 실제로 결제까지 완료할 확률(사건 B)을 구하는 것이 조건부 확률이다.
→ 이게 마케팅에서 "전환율"을 계산하는 기본 아이디어다.

 

🔗 독립사건과 배반사건

① 독립사건(Independent Events)

한 사건의 발생이 다른 사건의 발생 확률에 전혀 영향을 주지 않는 경우다. 사건 A가 발생했다는 사실이 사건 B의 확률을 바꾸지 않는다면 두 사건은 독립이다.

P(B|A) = P(B)   →   P(A∩B) = P(A) · P(B)
독립이면 조건부 확률이 무조건부 확률과 같고, 동시 발생 확률은 단순 곱으로 계산
💡 예시: 동전 두 번 던지기
첫 번째 동전이 앞면이 나오는 사건과 두 번째 동전이 앞면이 나오는 사건은 독립이다.
→ P(둘 다 앞면) = 1/2 × 1/2 = 1/4

 

② 배반사건(Mutually Exclusive Events)

두 사건이 동시에 발생할 수 없는 경우다. 교집합이 공집합(∅)이다.

A∩B = ∅  →  P(A∩B) = 0
P(A∪B) = P(A) + P(B)
배반사건은 동시에 일어날 수 없으므로, 합사건 확률은 단순 합산
💡 예시: 주사위 한 번 던지기
"짝수가 나오는 사건"과 "홀수가 나오는 사건"은 배반이다. 동시에 일어날 수 없다.
→ P(짝수 또는 홀수) = P(짝수) + P(홀수) = 1/2 + 1/2 = 1
⚠️ 독립 vs 배반, 헷갈리지 말자!
독립: 두 사건이 각각 발생 가능하고, 서로 영향을 주지 않음
배반: 두 사건이 동시에 발생 자체가 불가능함

배반사건은 한 사건이 발생하면 다른 사건이 절대 발생하지 않으므로, 서로 강하게 영향을 주는 관계다. 따라서 배반사건은 (P(A)>0이고 P(B)>0이면) 독립이 아니다.
구분 독립사건 배반사건
정의 서로 영향 없음 동시 발생 불가
P(A∩B) P(A)·P(B) 0
P(A∪B) P(A)+P(B)−P(A∩B) P(A)+P(B)
조건부 확률 P(B|A) = P(B) P(B|A) = 0
예시 동전 연속 던지기 주사위 짝수/홀수

 

반응형

 

📊 확률변수와 확률분포

① 확률분포(Probability Distribution)란?

확률변수가 특정 값을 가질 확률을 정리한 함수다. 확률변수(random variable)는 어떤 값이든 가질 수 있는 이론적 변수이고, 확률분포는 그 변수가 각 값을 가질 가능성을 보여준다.

확률분포는 크게 두 가지로 나뉜다.

이산형 확률분포
셀 수 있는 유한한 값을 가질 때
ex) 주사위 눈, 불량품 수, 고객 수
연속형 확률분포
연속적인 실수 값을 가질 때
ex) 키, 무게, 대기 시간, 온도

 

② 이산형 확률분포(Discrete Probability Distribution)

확률변수가 취할 수 있는 값이 유한하거나 셀 수 있을 때의 분포다. 각 값 x에 대해 확률 P(X=x)를 정의하며, 모든 가능한 x에 대한 확률의 합은 반드시 1이다.

각 x값에 대한 확률의 크기를 표현한 함수를 확률 질량 함수(PMF, Probability Mass Function)라고 한다.

📌 예시: 어느 콜센터에 한 시간 동안 걸려오는 전화 수 X

X = 0
P = 0.50
X = 1
P = 0.25
X = 2
P = 0.25

→ P(X≥1) = P(X=1) + P(X=2) = 0.25 + 0.25 = 0.50

 

③ 연속형 확률분포(Continuous Probability Distribution)

확률변수가 어떤 범위 내의 모든 실수 값을 가질 수 있을 때의 분포다. 연속형에서는 특정 한 점의 확률은 0이며, 구간에 속할 확률을 계산한다.

P(a ≤ X ≤ b) = ∫ab f(x) dx
f(x): 확률 밀도 함수(PDF) — 구간 아래 면적이 곧 확률

각 범위의 확률은 확률 밀도 함수(PDF, Probability Density Function)를 정의하고, 특정 구간의 넓이(적분)로 계산한다.

💡 이산형 vs 연속형 핵심 차이
• 이산형: P(X=3) = 0.2처럼 특정 값의 확률이 의미를 가짐
• 연속형: P(X=3) = 0 — 특정 값의 확률은 항상 0. 구간의 확률만 의미 있음
→ 키가 정확히 175.000...cm일 확률은 사실상 0이지만, 174~176cm 사이일 확률은 계산 가능

 

④ 결합 확률분포(Joint Probability Distribution)

두 확률변수 X와 Y가 동시에 특정 값을 가질 확률을 나타낸 분포다. 두 변수가 독립이라면, 각 확률분포에서 계산된 확률의 곱으로 결합 확률을 구할 수 있다.

X, Y 독립일 때: P(X=x, Y=y) = P(X=x) · P(Y=y)

 

📐 경험적 분포 vs 이론적 분포

확률분포는 도출 방식에 따라 두 종류로 구분한다.

경험적 분포 (Empirical Distribution)
실제 데이터를 바탕으로 구한 분포.
전체 관측치 중 특정 조건에 해당하는 비율을 직접 계산해 확률분포를 확인한다.

📌 예) 지난 1년간 배달 주문 1,000건 중 30분 이내 도착한 건수의 비율
이론적 분포 (Theoretical Distribution)
수학적 가정으로 설계된 분포.
정규 분포, 포아송 분포, 지수 분포 등이 대표적이며, 각 분포마다 모수(parameter)가 설정된다.

📌 예) 배달 시간이 정규분포를 따른다고 가정하고 평균·표준편차를 추정
📌 실무에서의 활용
데이터가 충분하면 경험적 분포를 직접 활용하고, 데이터가 부족하거나 일반화가 필요하면 이론적 분포를 가정해 모수를 추정하는 방식으로 활용한다. 이론적 분포에서는 모수가 달라지면 분포의 형태가 달라지고, 그에 따라 확률도 달라진다.

📌 핵심 정리

  • 확률: 사건 발생 가능성을 0~1 사이 수치로 표현. P(A) = n(A)/n(Ω)
  • 조건부 확률: A가 발생했을 때 B 확률 → P(B|A) = P(A∩B)/P(A)
  • 독립사건: 서로 영향 없음 → P(A∩B) = P(A)·P(B)
  • 배반사건: 동시 발생 불가 → P(A∩B) = 0, 독립이 아님
  • 이산형 분포: 셀 수 있는 값, 확률 질량 함수(PMF) 사용
  • 연속형 분포: 연속 실수 값, 확률 밀도 함수(PDF) 사용, 특정 점의 확률 = 0
  • 결합 확률분포: 두 변수가 동시에 특정 값을 가질 확률 (독립이면 단순 곱)
  • 경험적 분포: 실제 데이터 기반 / 이론적 분포: 수학적 가정 기반 (정규·포아송 등)
728x90