728x90
포아송 분포는 처음 접하면 "시간? 횟수? λ가 뭐야?" 하고 헷갈리기 쉬운 분포다.
하지만 한 번 감을 잡으면 실생활 곳곳에서 포아송 분포가 보이기 시작한다.
이번 글에서는 포아송 분포가 무엇인지, 왜 그 공식이 나왔는지, 어디에 쓰이는지를 최대한 직관적으로 설명한다.
하지만 한 번 감을 잡으면 실생활 곳곳에서 포아송 분포가 보이기 시작한다.
이번 글에서는 포아송 분포가 무엇인지, 왜 그 공식이 나왔는지, 어디에 쓰이는지를 최대한 직관적으로 설명한다.
🎯 포아송 분포란?
한 줄 정의
"일정한 시간 또는 공간 안에서 특정 사건이 몇 번 발생하는지"를 나타내는 이산형 확률분포다.
❓ "이산형"인데 왜 시간이 등장해?
시간(또는 공간)은 관찰 단위다. 그 안에서 발생하는 사건의 횟수는 0, 1, 2, 3… 처럼 셀 수 있는 정수다. 연속인 건 "시간 자체"가 아니라 "관찰 구간의 설정"이고, 우리가 관심을 갖는 건 그 안에서의 발생 횟수(이산값)다.
핵심 아이디어: λ(람다)
포아송 분포에는 딱 하나의 모수(parameter)가 있다. 바로 λ(람다)다. λ는 단위 시간(또는 단위 공간) 안에서 사건이 발생하는 평균 횟수다.
💡 λ를 이렇게 이해하자
"1시간 동안 평균 3번 전화가 온다" → λ = 3
"1km 도로에 평균 2개 포트홀이 있다" → λ = 2
λ를 알면 "그 구간에서 정확히 k번 발생할 확률"을 계산할 수 있다.
"1시간 동안 평균 3번 전화가 온다" → λ = 3
"1km 도로에 평균 2개 포트홀이 있다" → λ = 2
λ를 알면 "그 구간에서 정확히 k번 발생할 확률"을 계산할 수 있다.
λ는 사전 지식(도메인 경험)으로 설정하거나, 과거 데이터에서 평균 발생 횟수를 계산해 추정한다.
✅ 포아송 분포를 적용할 수 있는 조건
아무 상황에나 쓸 수 있는 게 아니다. 아래 4가지 조건이 충족될 때만 포아송 분포가 성립한다.
1
사건은 독립적으로 발생한다
한 사건의 발생이 다음 사건의 발생에 영향을 주지 않는다.
예) 10분에 전화가 왔다고 해서 11분에 전화가 올 확률이 바뀌지 않는다.
한 사건의 발생이 다음 사건의 발생에 영향을 주지 않는다.
예) 10분에 전화가 왔다고 해서 11분에 전화가 올 확률이 바뀌지 않는다.
2
단위 시간(공간)당 평균 발생 횟수 λ가 일정하다
시간대나 구간에 관계없이 발생률이 동일하다고 가정한다.
예) 오전이든 오후든 시간당 평균 발생 횟수가 동일하다.
시간대나 구간에 관계없이 발생률이 동일하다고 가정한다.
예) 오전이든 오후든 시간당 평균 발생 횟수가 동일하다.
3
아주 짧은 구간에서 두 번 이상 동시에 발생할 확률은 0에 가깝다
같은 순간에 두 사건이 동시에 일어날 수 없다고 본다.
같은 순간에 두 사건이 동시에 일어날 수 없다고 본다.
4
발생 횟수는 0 이상의 정수다
0번, 1번, 2번… 처럼 셀 수 있는 값이다. 음수나 소수점은 없다.
0번, 1번, 2번… 처럼 셀 수 있는 값이다. 음수나 소수점은 없다.
📐 확률 질량 함수(PMF) 이해하기
f(k) = P(X = k) = (e−λ · λk) / k!
k = 0, 1, 2, 3, … (발생 횟수)
λ: 단위 구간당 평균 발생 횟수 (모수)
e: 자연상수 ≈ 2.718…
λ: 단위 구간당 평균 발생 횟수 (모수)
e: 자연상수 ≈ 2.718…
공식의 각 부분이 의미하는 것
λᵏ 평균 λ번 발생하는 상황에서 k번 발생하는 "상대적 빈도"를 나타낸다.
→ k가 커질수록 λᵏ도 커지지만, 아래 k!이 훨씬 빠르게 커져서 전체는 줄어든다. k! k번 발생하는 순서의 경우의 수. 같은 k번이어도 발생 순서는 여러 가지가 있으므로 나눠준다.
→ 이항 분포의 C(n,k)와 유사한 역할. 중복을 제거해 확률을 정규화한다. e−λ 모든 k에 대한 확률의 합이 1이 되도록 만드는 정규화 상수.
→ eλ = Σ(λᵏ/k!)라는 수학적 사실에서 비롯된다. e⁻λ를 곱해야 전체 합이 1이 된다. 직관 "평균적으로 λ번 일어나는 상황에서 딱 k번 일어날 확률"
→ k가 커질수록 λᵏ도 커지지만, 아래 k!이 훨씬 빠르게 커져서 전체는 줄어든다. k! k번 발생하는 순서의 경우의 수. 같은 k번이어도 발생 순서는 여러 가지가 있으므로 나눠준다.
→ 이항 분포의 C(n,k)와 유사한 역할. 중복을 제거해 확률을 정규화한다. e−λ 모든 k에 대한 확률의 합이 1이 되도록 만드는 정규화 상수.
→ eλ = Σ(λᵏ/k!)라는 수학적 사실에서 비롯된다. e⁻λ를 곱해야 전체 합이 1이 된다. 직관 "평균적으로 λ번 일어나는 상황에서 딱 k번 일어날 확률"
검증: 모든 확률의 합은 1
Σk=0∞ P(X=k) = Σ (e−λ · λk / k!)
= e−λ · Σ(λk / k!)
= e−λ · eλ ← 테일러 급수 전개: eˣ = Σxᵏ/k!
= e⁰ = 1 ✓
= e−λ · Σ(λk / k!)
= e−λ · eλ ← 테일러 급수 전개: eˣ = Σxᵏ/k!
= e⁰ = 1 ✓
📊 평균과 분산
포아송 분포의 가장 특별한 성질 하나 — 평균과 분산이 모두 λ로 같다.
평균 (기댓값)
E[X] = λ
모수 λ 그 자체
분산
Var(X) = λ
평균 = 분산
표준편차
σ = √λ
분산의 제곱근
왜 평균 = 분산 = λ인가?
직관적 이해
포아송 분포는 사건이 드물고 독립적으로 발생하는 상황을 모델링한다.
λ가 크다 = 자주 발생 = 흩어짐(분산)도 크다
λ가 작다 = 드물게 발생 = 흩어짐(분산)도 작다
→ 발생 빈도(평균)와 불확실성(분산)이 같은 λ 하나로 동시에 결정되는 분포 수식 유도 (평균)
E[X] = Σ k · (e−λλk/k!)
= e−λ · Σk=1∞ λk/(k−1)!
= e−λ · λ · Σj=0∞ λj/j! (j = k−1 치환)
= e−λ · λ · eλ = λ
포아송 분포는 사건이 드물고 독립적으로 발생하는 상황을 모델링한다.
λ가 크다 = 자주 발생 = 흩어짐(분산)도 크다
λ가 작다 = 드물게 발생 = 흩어짐(분산)도 작다
→ 발생 빈도(평균)와 불확실성(분산)이 같은 λ 하나로 동시에 결정되는 분포 수식 유도 (평균)
E[X] = Σ k · (e−λλk/k!)
= e−λ · Σk=1∞ λk/(k−1)!
= e−λ · λ · Σj=0∞ λj/j! (j = k−1 치환)
= e−λ · λ · eλ = λ
💡 평균 = 분산인 것을 데이터 검증에 활용
실제 데이터의 평균과 분산을 계산했을 때 비슷하다면, 그 데이터가 포아송 분포를 따를 가능성이 높다.
반대로 분산이 평균보다 훨씬 크면(과산포), 음이항 분포 등 다른 분포를 검토해야 한다.
실제 데이터의 평균과 분산을 계산했을 때 비슷하다면, 그 데이터가 포아송 분포를 따를 가능성이 높다.
반대로 분산이 평균보다 훨씬 크면(과산포), 음이항 분포 등 다른 분포를 검토해야 한다.
반응형
⏱️ 관찰 구간이 바뀌면 λ도 바뀐다
포아송 분포에서 가장 헷갈리는 부분이 바로 이것이다. λ는 항상 "단위 구간"에 맞춰 설정해야 한다.
❓ 시간당 평균 6건 발생하는 사건이 있다. 30분 동안 2건 발생할 확률은?
관찰 구간이 1시간 → 30분으로 절반이 됐으므로 λ도 절반.
λ = 6 × (30/60) = 3으로 바꿔서 계산한다.
P(X=2) = e⁻³ · 3² / 2! = e⁻³ · 9/2 ≈ 0.2240
λ = 6 × (30/60) = 3으로 바꿔서 계산한다.
P(X=2) = e⁻³ · 3² / 2! = e⁻³ · 9/2 ≈ 0.2240
구간 변환 공식
원래 단위: 시간당 λ₀번 발생
새로운 구간 t시간으로 관찰 시: λ = λ₀ × t
→ 구간이 2배면 λ도 2배, 절반이면 λ도 절반. 비율적으로 스케일된다. 예시
하루 평균 12건 → 1시간 단위: λ = 12/24 = 0.5
하루 평균 12건 → 2시간 단위: λ = 12/24 × 2 = 1
하루 평균 12건 → 1주일 단위: λ = 12 × 7 = 84
원래 단위: 시간당 λ₀번 발생
새로운 구간 t시간으로 관찰 시: λ = λ₀ × t
→ 구간이 2배면 λ도 2배, 절반이면 λ도 절반. 비율적으로 스케일된다. 예시
하루 평균 12건 → 1시간 단위: λ = 12/24 = 0.5
하루 평균 12건 → 2시간 단위: λ = 12/24 × 2 = 1
하루 평균 12건 → 1주일 단위: λ = 12 × 7 = 84
⚠️ 주의: 단위를 항상 통일하자
λ의 단위와 관찰 구간의 단위가 반드시 일치해야 한다.
"시간당 λ"인데 관찰 구간이 "분"이면 반드시 단위를 변환한 뒤 계산해야 한다.
λ의 단위와 관찰 구간의 단위가 반드시 일치해야 한다.
"시간당 λ"인데 관찰 구간이 "분"이면 반드시 단위를 변환한 뒤 계산해야 한다.
🔢 계산 예시: λ = 3인 포아송 분포
단위 시간당 평균 3번 발생하는 사건(λ=3)에 대해 각 k별 확률을 계산해보자.
P(X=0) = e⁻³ · 3⁰ / 0! = e⁻³ ≈ 0.0498
P(X=1) = e⁻³ · 3¹ / 1! = 3e⁻³ ≈ 0.1494
P(X=2) = e⁻³ · 3² / 2! = 4.5e⁻³ ≈ 0.2240
P(X=3) = e⁻³ · 3³ / 3! = 4.5e⁻³ ≈ 0.2240
P(X=4) = e⁻³ · 3⁴ / 4! = 3.375e⁻³ ≈ 0.1681
→ k=2, 3에서 확률이 최대 (최빈값). 평균 λ=3 근처에서 가장 자주 발생.
P(X=1) = e⁻³ · 3¹ / 1! = 3e⁻³ ≈ 0.1494
P(X=2) = e⁻³ · 3² / 2! = 4.5e⁻³ ≈ 0.2240
P(X=3) = e⁻³ · 3³ / 3! = 4.5e⁻³ ≈ 0.2240
P(X=4) = e⁻³ · 3⁴ / 4! = 3.375e⁻³ ≈ 0.1681
→ k=2, 3에서 확률이 최대 (최빈값). 평균 λ=3 근처에서 가장 자주 발생.
📌 λ = 3일 때 포아송 분포 (최대값 P(X=2)=0.2240 기준 정규화)
누적 확률: P(X≤3) = 0.0498+0.1494+0.2240+0.2240 = 0.6472
📌 λ값에 따라 분포 모양이 달라진다
• λ가 작을수록 (λ < 1): 0에서 확률이 가장 높고, 오른쪽으로 급격히 감소하는 모양
• λ가 커질수록: 분포가 점점 오른쪽으로 이동하고, 정규분포와 비슷한 종 모양에 가까워짐
→ 실무에서 λ ≥ 10 이상이면 정규 근사를 활용하기도 한다
• λ가 작을수록 (λ < 1): 0에서 확률이 가장 높고, 오른쪽으로 급격히 감소하는 모양
• λ가 커질수록: 분포가 점점 오른쪽으로 이동하고, 정규분포와 비슷한 종 모양에 가까워짐
→ 실무에서 λ ≥ 10 이상이면 정규 근사를 활용하기도 한다
🌍 실생활 속 포아송 분포
포아송 분포는 생각보다 훨씬 넓은 분야에서 쓰인다. "단위 시간/공간 안에서 랜덤하게 발생하는 사건의 횟수"라면 어디든 적용된다.
콜센터 수신 전화
단위: 1시간
시간당 평균 20건의 문의 전화가 온다고 할 때, 특정 1시간 동안 정확히 25건이 올 확률을 계산한다. 상담원 배치 인원 결정에 활용.
λ = 20 / 1시간
쇼핑몰 주문 건수
단위: 1분
평일 오후 분당 평균 5건의 주문이 들어온다고 할 때, 특정 1분 동안 0건(서버 여유)이나 10건 이상(과부하)이 발생할 확률을 계산해 서버 용량을 설계한다.
λ = 5 / 1분
교통사고 발생 건수
단위: 1일
특정 교차로에서 하루 평균 0.3건의 사고가 난다고 할 때, 한 달(30일) 동안 사고가 0건일 확률, 5건 이상일 확률 등을 계산해 신호 체계나 단속 주기를 결정한다.
λ = 0.3 / 1일 → 30일: λ=9
서버 오류 발생
단위: 1시간
시간당 평균 2건의 에러 로그가 발생하는 시스템에서 특정 시간 동안 5건 이상 발생하면 알람을 울리도록 임계값을 설정할 때 사용한다.
λ = 2 / 1시간
DNA 돌연변이
단위: 1,000 염기쌍
염기쌍 1,000개당 평균 0.5개의 돌연변이가 발생한다고 할 때, 특정 유전자 구간에서 몇 개의 돌연변이가 발생할지를 모델링한다.
λ = 0.5 / 1,000 염기쌍
물류 센터 입고 건수
단위: 1시간
시간당 평균 8건의 화물이 입고된다고 할 때, 특정 시간대에 처리 인력이 감당하지 못할 확률(예: 15건 이상)을 계산해 교대 근무를 설계한다.
λ = 8 / 1시간
🔄 이항 분포와 포아송 분포의 관계
포아송 분포는 이항 분포에서 n → ∞, p → 0, np = λ (일정)인 극한 상황으로 유도된다. 즉 "시행 횟수는 매우 많지만, 한 번의 성공 확률은 매우 낮은" 상황에서 이항 분포를 포아송으로 근사할 수 있다.
| 구분 | 이항 분포 | 포아송 분포 |
|---|---|---|
| 시행 횟수 | n번 (유한, 고정) | ∞에 가까움 (무한) |
| 성공 확률 | p (고정) | p → 0 (매우 희귀) |
| 모수 | n, p | λ = np |
| 평균 | np | λ |
| 분산 | np(1−p) | λ (≈ np, since p≈0) |
| 적합한 상황 | 시행 횟수가 정해진 경우 | 단위 시간/공간 내 발생 횟수 |
💡 언제 이항 대신 포아송을 쓸까?
n이 크고(20 이상), p가 작을 때(0.05 이하), np = λ가 중간 정도(10 이하)이면
이항 분포 계산이 복잡해지므로 포아송 근사를 활용한다.
예) "1만 명 중 불량품을 받을 확률이 0.01%일 때 3명이 받을 확률" → n=10000, p=0.0001, λ=1로 포아송 적용
n이 크고(20 이상), p가 작을 때(0.05 이하), np = λ가 중간 정도(10 이하)이면
이항 분포 계산이 복잡해지므로 포아송 근사를 활용한다.
예) "1만 명 중 불량품을 받을 확률이 0.01%일 때 3명이 받을 확률" → n=10000, p=0.0001, λ=1로 포아송 적용
📌 핵심 정리
- 포아송 분포: 단위 시간/공간에서 사건이 k번 발생할 확률을 모델링하는 이산형 분포
- PMF: f(k) = e−λλk / k! (k = 0, 1, 2, …)
- 모수 λ: 단위 구간당 평균 발생 횟수. 사전 지식 또는 데이터 평균으로 설정
- 평균 = 분산 = λ: 포아송 분포의 가장 중요한 성질
- 구간 변환: 관찰 구간이 t배 늘면 λ도 t배 → λ_new = λ₀ × t
- 적용 조건: 독립 발생 / 일정한 발생률 / 동시 발생 불가 / 횟수는 0 이상 정수
- 이항 근사: n 크고 p 작을 때 λ=np로 포아송 분포로 근사 가능
- 평균 = 분산 확인: 실제 데이터 검증 시 두 값이 비슷하면 포아송 적합 가능성 ↑
728x90
'수학&통계학' 카테고리의 다른 글
| 연속형 확률분포 : 정규분포 (0) | 2026.05.11 |
|---|---|
| 연속형 확률분포 : 균일분포, 지수분포 (0) | 2026.05.11 |
| 이산확률분포 : 베르누이 분포, 이항 분포 (0) | 2026.05.11 |
| 통계 분석 : 확률과 확률분포 (0) | 2026.05.10 |
| 통계 개념 (3) : 측정과 척도 및 기타 용어 (0) | 2026.05.10 |