이산확률분포 : 포아송 분포

728x90

포아송 분포는 처음 접하면 "시간? 횟수? λ가 뭐야?" 하고 헷갈리기 쉬운 분포다.
하지만 한 번 감을 잡으면 실생활 곳곳에서 포아송 분포가 보이기 시작한다.
이번 글에서는 포아송 분포가 무엇인지, 왜 그 공식이 나왔는지, 어디에 쓰이는지를 최대한 직관적으로 설명한다.

🎯 포아송 분포란?

한 줄 정의

"일정한 시간 또는 공간 안에서 특정 사건이 몇 번 발생하는지"를 나타내는 이산형 확률분포다.

❓ "이산형"인데 왜 시간이 등장해?

시간(또는 공간)은 관찰 단위다. 그 안에서 발생하는 사건의 횟수는 0, 1, 2, 3… 처럼 셀 수 있는 정수다. 연속인 건 "시간 자체"가 아니라 "관찰 구간의 설정"이고, 우리가 관심을 갖는 건 그 안에서의 발생 횟수(이산값)다.

핵심 아이디어: λ(람다)

포아송 분포에는 딱 하나의 모수(parameter)가 있다. 바로 λ(람다)다. λ는 단위 시간(또는 단위 공간) 안에서 사건이 발생하는 평균 횟수다.

💡 λ를 이렇게 이해하자
"1시간 동안 평균 3번 전화가 온다" → λ = 3
"1km 도로에 평균 2개 포트홀이 있다" → λ = 2
λ를 알면 "그 구간에서 정확히 k번 발생할 확률"을 계산할 수 있다.

λ는 사전 지식(도메인 경험)으로 설정하거나, 과거 데이터에서 평균 발생 횟수를 계산해 추정한다.

✅ 포아송 분포를 적용할 수 있는 조건

아무 상황에나 쓸 수 있는 게 아니다. 아래 4가지 조건이 충족될 때만 포아송 분포가 성립한다.

사건은 독립적으로 발생한다
한 사건의 발생이 다음 사건의 발생에 영향을 주지 않는다.
예) 10분에 전화가 왔다고 해서 11분에 전화가 올 확률이 바뀌지 않는다.

단위 시간(공간)당 평균 발생 횟수 λ가 일정하다
시간대나 구간에 관계없이 발생률이 동일하다고 가정한다.
예) 오전이든 오후든 시간당 평균 발생 횟수가 동일하다.

아주 짧은 구간에서 두 번 이상 동시에 발생할 확률은 0에 가깝다
같은 순간에 두 사건이 동시에 일어날 수 없다고 본다.

발생 횟수는 0 이상의 정수다
0번, 1번, 2번… 처럼 셀 수 있는 값이다. 음수나 소수점은 없다.

📐 확률 질량 함수(PMF) 이해하기

f(k) = P(X = k) = (e^−λ · λ^k) / k!

k = 0, 1, 2, 3, … (발생 횟수)
λ: 단위 구간당 평균 발생 횟수 (모수)
e: 자연상수 ≈ 2.718…

공식의 각 부분이 의미하는 것

λᵏ 평균 λ번 발생하는 상황에서 k번 발생하는 "상대적 빈도"를 나타낸다.
→ k가 커질수록 λᵏ도 커지지만, 아래 k!이 훨씬 빠르게 커져서 전체는 줄어든다. k! k번 발생하는 순서의 경우의 수. 같은 k번이어도 발생 순서는 여러 가지가 있으므로 나눠준다.
→ 이항 분포의 C(n,k)와 유사한 역할. 중복을 제거해 확률을 정규화한다. e^−λ 모든 k에 대한 확률의 합이 1이 되도록 만드는 정규화 상수.
→ e^λ = Σ(λᵏ/k!)라는 수학적 사실에서 비롯된다. e⁻λ를 곱해야 전체 합이 1이 된다. 직관 "평균적으로 λ번 일어나는 상황에서 딱 k번 일어날 확률"

검증: 모든 확률의 합은 1

Σ_k=0^∞ P(X=k) = Σ (e^−λ · λ^k / k!)
  = e^−λ · Σ(λ^k / k!)
  = e^−λ · e^λ   ← 테일러 급수 전개: eˣ = Σxᵏ/k!
  = e⁰ = 1 ✓

📊 평균과 분산

포아송 분포의 가장 특별한 성질 하나 — 평균과 분산이 모두 λ로 같다.

평균 (기댓값)

E[X] = λ

모수 λ 그 자체

분산

Var(X) = λ

평균 = 분산

표준편차

σ = √λ

분산의 제곱근

왜 평균 = 분산 = λ인가?

직관적 이해
포아송 분포는 사건이 드물고 독립적으로 발생하는 상황을 모델링한다.
λ가 크다 = 자주 발생 = 흩어짐(분산)도 크다
λ가 작다 = 드물게 발생 = 흩어짐(분산)도 작다
→ 발생 빈도(평균)와 불확실성(분산)이 같은 λ 하나로 동시에 결정되는 분포 수식 유도 (평균)
E[X] = Σ k · (e^−λλ^k/k!)
      = e^−λ · Σ_k=1^∞ λ^k/(k−1)!
      = e^−λ · λ · Σ_j=0^∞ λ^j/j!   (j = k−1 치환)
      = e^−λ · λ · e^λ = λ

💡 평균 = 분산인 것을 데이터 검증에 활용
실제 데이터의 평균과 분산을 계산했을 때 비슷하다면, 그 데이터가 포아송 분포를 따를 가능성이 높다.
반대로 분산이 평균보다 훨씬 크면(과산포), 음이항 분포 등 다른 분포를 검토해야 한다.

⏱️ 관찰 구간이 바뀌면 λ도 바뀐다

포아송 분포에서 가장 헷갈리는 부분이 바로 이것이다. λ는 항상 "단위 구간"에 맞춰 설정해야 한다.

❓ 시간당 평균 6건 발생하는 사건이 있다. 30분 동안 2건 발생할 확률은?

관찰 구간이 1시간 → 30분으로 절반이 됐으므로 λ도 절반.
λ = 6 × (30/60) = 3으로 바꿔서 계산한다.
P(X=2) = e⁻³ · 3² / 2! = e⁻³ · 9/2 ≈ 0.2240

구간 변환 공식
원래 단위: 시간당 λ₀번 발생
새로운 구간 t시간으로 관찰 시: λ = λ₀ × t
→ 구간이 2배면 λ도 2배, 절반이면 λ도 절반. 비율적으로 스케일된다. 예시
하루 평균 12건 → 1시간 단위: λ = 12/24 = 0.5
하루 평균 12건 → 2시간 단위: λ = 12/24 × 2 = 1
하루 평균 12건 → 1주일 단위: λ = 12 × 7 = 84

⚠️ 주의: 단위를 항상 통일하자
λ의 단위와 관찰 구간의 단위가 반드시 일치해야 한다.
"시간당 λ"인데 관찰 구간이 "분"이면 반드시 단위를 변환한 뒤 계산해야 한다.

🔢 계산 예시: λ = 3인 포아송 분포

단위 시간당 평균 3번 발생하는 사건(λ=3)에 대해 각 k별 확률을 계산해보자.

P(X=0) = e⁻³ · 3⁰ / 0! = e⁻³ ≈ 0.0498
P(X=1) = e⁻³ · 3¹ / 1! = 3e⁻³ ≈ 0.1494
P(X=2) = e⁻³ · 3² / 2! = 4.5e⁻³ ≈ 0.2240
P(X=3) = e⁻³ · 3³ / 3! = 4.5e⁻³ ≈ 0.2240
P(X=4) = e⁻³ · 3⁴ / 4! = 3.375e⁻³ ≈ 0.1681
→ k=2, 3에서 확률이 최대 (최빈값). 평균 λ=3 근처에서 가장 자주 발생.

📌 λ = 3일 때 포아송 분포 (최대값 P(X=2)=0.2240 기준 정규화)

k = 0

0.0498

k = 1

0.1494

k = 2

0.2240

k = 3

0.2240

k = 4

0.1681

k = 5

0.1008

k = 6

0.0504

누적 확률: P(X≤3) = 0.0498+0.1494+0.2240+0.2240 = 0.6472

📌 λ값에 따라 분포 모양이 달라진다
• λ가 작을수록 (λ < 1): 0에서 확률이 가장 높고, 오른쪽으로 급격히 감소하는 모양
• λ가 커질수록: 분포가 점점 오른쪽으로 이동하고, 정규분포와 비슷한 종 모양에 가까워짐
→ 실무에서 λ ≥ 10 이상이면 정규 근사를 활용하기도 한다

🌍 실생활 속 포아송 분포

포아송 분포는 생각보다 훨씬 넓은 분야에서 쓰인다. "단위 시간/공간 안에서 랜덤하게 발생하는 사건의 횟수"라면 어디든 적용된다.

📞

콜센터 수신 전화

단위: 1시간

시간당 평균 20건의 문의 전화가 온다고 할 때, 특정 1시간 동안 정확히 25건이 올 확률을 계산한다. 상담원 배치 인원 결정에 활용.

λ = 20 / 1시간

🛒

쇼핑몰 주문 건수

단위: 1분

평일 오후 분당 평균 5건의 주문이 들어온다고 할 때, 특정 1분 동안 0건(서버 여유)이나 10건 이상(과부하)이 발생할 확률을 계산해 서버 용량을 설계한다.

λ = 5 / 1분

🚗

교통사고 발생 건수

단위: 1일

특정 교차로에서 하루 평균 0.3건의 사고가 난다고 할 때, 한 달(30일) 동안 사고가 0건일 확률, 5건 이상일 확률 등을 계산해 신호 체계나 단속 주기를 결정한다.

λ = 0.3 / 1일 → 30일: λ=9

🖥️

서버 오류 발생

단위: 1시간

시간당 평균 2건의 에러 로그가 발생하는 시스템에서 특정 시간 동안 5건 이상 발생하면 알람을 울리도록 임계값을 설정할 때 사용한다.

λ = 2 / 1시간

🧬

DNA 돌연변이

단위: 1,000 염기쌍

염기쌍 1,000개당 평균 0.5개의 돌연변이가 발생한다고 할 때, 특정 유전자 구간에서 몇 개의 돌연변이가 발생할지를 모델링한다.

λ = 0.5 / 1,000 염기쌍

📦

물류 센터 입고 건수

단위: 1시간

시간당 평균 8건의 화물이 입고된다고 할 때, 특정 시간대에 처리 인력이 감당하지 못할 확률(예: 15건 이상)을 계산해 교대 근무를 설계한다.

λ = 8 / 1시간

🔄 이항 분포와 포아송 분포의 관계

포아송 분포는 이항 분포에서 n → ∞, p → 0, np = λ (일정)인 극한 상황으로 유도된다. 즉 "시행 횟수는 매우 많지만, 한 번의 성공 확률은 매우 낮은" 상황에서 이항 분포를 포아송으로 근사할 수 있다.

구분	이항 분포	포아송 분포
시행 횟수	n번 (유한, 고정)	∞에 가까움 (무한)
성공 확률	p (고정)	p → 0 (매우 희귀)
모수	n, p	λ = np
평균	np	λ
분산	np(1−p)	λ (≈ np, since p≈0)
적합한 상황	시행 횟수가 정해진 경우	단위 시간/공간 내 발생 횟수

💡 언제 이항 대신 포아송을 쓸까?
n이 크고(20 이상), p가 작을 때(0.05 이하), np = λ가 중간 정도(10 이하)이면
이항 분포 계산이 복잡해지므로 포아송 근사를 활용한다.
예) "1만 명 중 불량품을 받을 확률이 0.01%일 때 3명이 받을 확률" → n=10000, p=0.0001, λ=1로 포아송 적용

📌 핵심 정리

포아송 분포: 단위 시간/공간에서 사건이 k번 발생할 확률을 모델링하는 이산형 분포
PMF: f(k) = e^−λλ^k / k! (k = 0, 1, 2, …)
모수 λ: 단위 구간당 평균 발생 횟수. 사전 지식 또는 데이터 평균으로 설정
평균 = 분산 = λ: 포아송 분포의 가장 중요한 성질
구간 변환: 관찰 구간이 t배 늘면 λ도 t배 → λ_new = λ₀ × t
적용 조건: 독립 발생 / 일정한 발생률 / 동시 발생 불가 / 횟수는 0 이상 정수
이항 근사: n 크고 p 작을 때 λ=np로 포아송 분포로 근사 가능
평균 = 분산 확인: 실제 데이터 검증 시 두 값이 비슷하면 포아송 적합 가능성 ↑

728x90

'수학&통계학' 카테고리의 다른 글

연속형 확률분포 : 정규분포 (0)	2026.05.11
연속형 확률분포 : 균일분포, 지수분포 (0)	2026.05.11
이산확률분포 : 베르누이 분포, 이항 분포 (0)	2026.05.11
통계 분석 : 확률과 확률분포 (0)	2026.05.10
통계 개념 (3) : 측정과 척도 및 기타 용어 (0)	2026.05.10

구구 코스모스

이산확률분포 : 포아송 분포

🎯 포아송 분포란?

한 줄 정의

핵심 아이디어: λ(람다)

✅ 포아송 분포를 적용할 수 있는 조건

📐 확률 질량 함수(PMF) 이해하기

공식의 각 부분이 의미하는 것

검증: 모든 확률의 합은 1

📊 평균과 분산

왜 평균 = 분산 = λ인가?

⏱️ 관찰 구간이 바뀌면 λ도 바뀐다

🔢 계산 예시: λ = 3인 포아송 분포

🌍 실생활 속 포아송 분포

🔄 이항 분포와 포아송 분포의 관계

📌 핵심 정리

'수학&통계학' 카테고리의 다른 글

티스토리툴바

이산확률분포 : 포아송 분포

🎯 포아송 분포란?

한 줄 정의

핵심 아이디어: λ(람다)

✅ 포아송 분포를 적용할 수 있는 조건

📐 확률 질량 함수(PMF) 이해하기

공식의 각 부분이 의미하는 것

검증: 모든 확률의 합은 1

📊 평균과 분산

왜 평균 = 분산 = λ인가?

⏱️ 관찰 구간이 바뀌면 λ도 바뀐다

🔢 계산 예시: λ = 3인 포아송 분포

🌍 실생활 속 포아송 분포

🔄 이항 분포와 포아송 분포의 관계

📌 핵심 정리

'수학&통계학' 카테고리의 다른 글

관련글

티스토리툴바