728x90
데이터를 분석하다 보면 변수마다 단위와 범위가 제각각이라 직접 비교가 어려운 경우가 많다.
키(cm)와 몸무게(kg)를 그대로 놓고 어느 변수가 더 큰 영향을 주는지 비교할 수 없는 것처럼.
이번 글에서는 변수를 같은 기준으로 맞추는 정규화(Normalization)와, 두 변수 사이의 관계를 수치화하는 공분산·상관계수를 정리한다.
키(cm)와 몸무게(kg)를 그대로 놓고 어느 변수가 더 큰 영향을 주는지 비교할 수 없는 것처럼.
이번 글에서는 변수를 같은 기준으로 맞추는 정규화(Normalization)와, 두 변수 사이의 관계를 수치화하는 공분산·상관계수를 정리한다.
1. 정규화 (Normalization)
왜 정규화가 필요한가?
변수들은 서로 다른 위치 특성(평균)과 산포 특성(분산)을 갖는다. 여러 변수를 함께 분석할 때 각 변수의 척도와 단위 차이를 그대로 두면 특정 변수가 결과를 지배하게 된다.
❓ 구체적으로 어떤 문제가 생길까?
머신러닝 모델에서 나이(20~80)와 연봉(1000~10000만원)을 함께 쓴다고 하자.연봉의 숫자 자체가 훨씬 크기 때문에 모델이 나이보다 연봉에 훨씬 큰 가중치를 부여하는 경향이 생긴다.
→ 정규화를 통해 두 변수를 같은 스케일로 맞춰야 공정한 비교가 가능하다.
정규화 방법은 크게 네 가지로 나뉜다. 목적에 따라 적합한 방법을 선택해서 사용한다.
①
최소-최대 정규화
Min-Max Normalization
xnew = (xᵢ − xmin) / (xmax − xmin)
관측치에서 최솟값을 빼고, 범위(최댓값−최솟값)로 나눈다.
변환 후 모든 값은 0 ~ 1 사이로 변환된다.
변수 간 상대 비교에 활용.
변환 후 모든 값은 0 ~ 1 사이로 변환된다.
변수 간 상대 비교에 활용.
②
중심화
Centering
xnew = xᵢ − x̄
각 관측치에서 평균을 뺀다.
변환된 데이터의 평균은 0이 된다.
분포의 위치를 원점으로 이동시키는 효과.
변환된 데이터의 평균은 0이 된다.
분포의 위치를 원점으로 이동시키는 효과.
③
척도화
Scaling
xnew = xᵢ / s
각 관측치를 표준편차(s)로 나눈다.
변환된 데이터의 표준편차는 1이 된다.
단위를 제거해 산포를 통일시키는 효과.
변환된 데이터의 표준편차는 1이 된다.
단위를 제거해 산포를 통일시키는 효과.
④
표준화
Standardization (Z-score)
xnew = (xᵢ − x̄) / s
중심화(평균 빼기) + 척도화(표준편차 나누기)를 동시에 적용.
변환 후 평균 = 0, 표준편차 = 1.
가장 많이 사용되는 정규화 방법.
변환 후 평균 = 0, 표준편차 = 1.
가장 많이 사용되는 정규화 방법.
① 최소-최대 정규화 계산 예시
원본 데이터 (점수)
40
60
70
80
100
60
70
80
100
→
Min=40, Max=100, 범위=60
(40−40)/60
(60−40)/60
(70−40)/60
(80−40)/60
(100−40)/60
(60−40)/60
(70−40)/60
(80−40)/60
(100−40)/60
→
변환 후 (0~1 범위)
0.00
0.33
0.50
0.67
1.00
0.33
0.50
0.67
1.00
④ 표준화(Z-score) 계산 예시
원본 데이터 (점수)
50
60
70
80
90
60
70
80
90
→
x̄=70, s≈15.8
(50−70)/15.8
(60−70)/15.8
(70−70)/15.8
(80−70)/15.8
(90−70)/15.8
(60−70)/15.8
(70−70)/15.8
(80−70)/15.8
(90−70)/15.8
→
Z-score (평균=0)
−1.26
−0.63
0.00
+0.63
+1.26
−0.63
0.00
+0.63
+1.26
네 가지 정규화 방법 비교
| 방법 | 공식 | 변환 후 평균 | 변환 후 표준편차 | 범위 |
|---|---|---|---|---|
| 최소-최대 | (xᵢ−min)/(max−min) | 0이 아닐 수 있음 | 1이 아닐 수 있음 | 0 ~ 1 |
| 중심화 | xᵢ − x̄ | 0 | 변화 없음 | 제한 없음 |
| 척도화 | xᵢ / s | 변화 없음 | 1 | 제한 없음 |
| 표준화 | (xᵢ − x̄) / s | 0 | 1 | 제한 없음 |
💡 정규화(Normalization)와 정규 분포(Normal Distribution)는 무관하다
통계에서 "정규(Normal)"라는 단어는 두 가지 전혀 다른 맥락에서 쓰인다.
• 정규 분포: Normal Distribution — 종 모양의 확률 분포
• 정규화: Normalization의 normal — "보통", "일반적인" 기준에 맞춘다는 의미
→ 정규화를 해도 데이터가 정규 분포를 따르게 되는 것이 아니다. 분포 모양은 그대로이고, 위치(평균)와 산포(표준편차)만 바뀐다.
통계에서 "정규(Normal)"라는 단어는 두 가지 전혀 다른 맥락에서 쓰인다.
• 정규 분포: Normal Distribution — 종 모양의 확률 분포
• 정규화: Normalization의 normal — "보통", "일반적인" 기준에 맞춘다는 의미
→ 정규화를 해도 데이터가 정규 분포를 따르게 되는 것이 아니다. 분포 모양은 그대로이고, 위치(평균)와 산포(표준편차)만 바뀐다.
💡 최소-최대 vs 표준화, 언제 무엇을 쓰나?
• 최소-최대 정규화: 이상치가 없고, 0~1 범위가 필요할 때 (신경망 입력값, 이미지 픽셀 등)
• 표준화: 이상치가 있거나 정규분포 가정이 필요한 분석 (회귀분석, SVM, PCA 등)
→ 이상치가 있을 때 최소-최대는 이상치에 의해 나머지 값이 좁은 범위에 몰릴 수 있어 표준화가 더 안전하다.
• 최소-최대 정규화: 이상치가 없고, 0~1 범위가 필요할 때 (신경망 입력값, 이미지 픽셀 등)
• 표준화: 이상치가 있거나 정규분포 가정이 필요한 분석 (회귀분석, SVM, PCA 등)
→ 이상치가 있을 때 최소-최대는 이상치에 의해 나머지 값이 좁은 범위에 몰릴 수 있어 표준화가 더 안전하다.
표준화
대입 수능 vs SAT 점수 비교
한국 수능(최고점 400점)과 미국 SAT(최고점 1600점)는 단위 자체가 다르다. 두 시험을 그대로 비교할 수 없다. Z-score로 표준화하면 상대적 위치를 비교할 수 있다.
수능 350점 (전체 평균 280, 표준편차 35) → Z = (350−280)/35 = +2.0
SAT 1380점 (전체 평균 1050, 표준편차 200) → Z = (1380−1050)/200 = +1.65
→ 수능 Z=2.0 > SAT Z=1.65 → 수능이 상대적으로 더 높은 위치
SAT 1380점 (전체 평균 1050, 표준편차 200) → Z = (1380−1050)/200 = +1.65
→ 수능 Z=2.0 > SAT Z=1.65 → 수능이 상대적으로 더 높은 위치
최소-최대
머신러닝 모델 피처 스케일링
집값 예측 모델에서 방 개수(1~10개)와 면적(20~300㎡)을 함께 입력할 때, 면적의 숫자가 크기 때문에 모델이 면적을 과도하게 중요시할 수 있다.
방 개수 5개 → (5−1)/(10−1) = 0.44
면적 120㎡ → (120−20)/(300−20) = 0.36
→ 두 피처가 0~1 범위로 통일되어 공정하게 학습에 기여
면적 120㎡ → (120−20)/(300−20) = 0.36
→ 두 피처가 0~1 범위로 통일되어 공정하게 학습에 기여
반응형
2. 공분산 (Covariance)
개념
두 변수 x와 y의 관계를 탐색하기 위해 산점도(Scatterplot)를 그리고, 그 관계를 하나의 수치로 요약한 것이 공분산이다. 분산의 계산식을 응용해 두 변수의 편차를 곱한 평균으로 계산한다.
qxy = (1/(n−1)) · Σ(xᵢ − x̄)(yᵢ − ȳ)
n: 관측치 수 | x̄: x의 평균 | ȳ: y의 평균
분모가 (n−1)인 이유: 표본 공분산의 불편 추정량 (베셀 보정)
분모가 (n−1)인 이유: 표본 공분산의 불편 추정량 (베셀 보정)
공분산의 직관적 이해
x가 평균보다 크고 y도 평균보다 크면 (xᵢ − x̄) > 0, (yᵢ − ȳ) > 0 → 곱 > 0
→ 두 변수가 같은 방향으로 움직임 x가 평균보다 크고 y는 평균보다 작으면 (xᵢ − x̄) > 0, (yᵢ − ȳ) < 0 → 곱 < 0
→ 두 변수가 반대 방향으로 움직임 공분산 부호 해석 qxy > 0: x가 클수록 y도 큰 경향 → 양의 관계
qxy < 0: x가 클수록 y는 작은 경향 → 음의 관계
qxy = 0: 선형 관계 없음 → 무관계 → 단, 비선형 관계는 공분산이 0이어도 존재할 수 있다
→ 두 변수가 같은 방향으로 움직임 x가 평균보다 크고 y는 평균보다 작으면 (xᵢ − x̄) > 0, (yᵢ − ȳ) < 0 → 곱 < 0
→ 두 변수가 반대 방향으로 움직임 공분산 부호 해석 qxy > 0: x가 클수록 y도 큰 경향 → 양의 관계
qxy < 0: x가 클수록 y는 작은 경향 → 음의 관계
qxy = 0: 선형 관계 없음 → 무관계 → 단, 비선형 관계는 공분산이 0이어도 존재할 수 있다
산점도와 공분산
두 변수의 관계를 시각적으로 파악하려면 산점도를 먼저 그린다.
📌 수학 점수(x)와 국어 점수(y)의 산점도
수학 점수 국어 점수 0 100 100 (80,90) (75,80) (100,100) (60,55) (90,85)수학 점수가 높을수록 국어 점수도 높은 경향 → 양의 공분산 예상
공분산의 한계
⚠️ 공분산만으로 관계의 강도를 비교하기 어렵다
공분산의 단위는 x의 단위 × y의 단위다.
예) 키(cm)와 몸무게(kg)의 공분산 단위 = cm·kg
→ 절댓값이 크다고 해서 관계가 강한 건지, 단순히 단위가 커서인지 구별할 수 없다.
→ 이 문제를 해결하기 위해 상관계수를 사용한다.
공분산의 단위는 x의 단위 × y의 단위다.
예) 키(cm)와 몸무게(kg)의 공분산 단위 = cm·kg
→ 절댓값이 크다고 해서 관계가 강한 건지, 단순히 단위가 커서인지 구별할 수 없다.
→ 이 문제를 해결하기 위해 상관계수를 사용한다.
공분산
광고비와 매출의 관계
5개월간 데이터: 광고비(만원) x = [100, 150, 200, 250, 300], 매출(만원) y = [500, 650, 800, 950, 1100]
x̄ = 200, ȳ = 800
x̄ = 200, ȳ = 800
편차 곱: (−100)(−300) + (−50)(−150) + (0)(0) + (50)(150) + (100)(300)
= 30000 + 7500 + 0 + 7500 + 30000 = 75000
공분산 = 75000 / (5−1) = 18750 (만원²)
→ 양수 → 광고비가 늘수록 매출도 느는 경향. 단, 단위(만원²)라 절댓값 해석은 어렵다.
= 30000 + 7500 + 0 + 7500 + 30000 = 75000
공분산 = 75000 / (5−1) = 18750 (만원²)
→ 양수 → 광고비가 늘수록 매출도 느는 경향. 단, 단위(만원²)라 절댓값 해석은 어렵다.
3. 상관계수 (Correlation Coefficient)
개념
상관계수는 표준화된 두 변수를 활용해 계산한 공분산이다. 각 변수의 표준편차로 나눠 단위를 제거하므로, 항상 −1 ~ +1 사이의 값을 가진다. ρ (로) 또는 r로 표기한다.
rxy = (1/(n−1)) · Σ((xᵢ−x̄)/sₓ) · ((yᵢ−ȳ)/sᵧ) = qxy / (sₓ · sᵧ)
sₓ: x의 표준편차 | sᵧ: y의 표준편차
−1 ≤ rxy ≤ +1 (코시-슈바르츠 부등식으로 증명)
−1 ≤ rxy ≤ +1 (코시-슈바르츠 부등식으로 증명)
상관계수 값 해석
−1
완전 음상관 −0.7
강한 음 0
무상관 +0.7
강한 양 +1
완전 양상관
완전 음상관 −0.7
강한 음 0
무상관 +0.7
강한 양 +1
완전 양상관
산점도 패턴과 상관계수
양의 상관
r ≈ +0.95
x↑ → y↑
음의 상관
r ≈ −0.95
x↑ → y↓
상관 없음
r ≈ 0
패턴 없음
비선형 관계
r ≈ 0 (but 관계 있음!)
상관계수=0 ≠ 무관계
⚠️ 상관계수 = 0이어도 관계가 없는 게 아닐 수 있다
상관계수는 선형 관계의 강도만 측정한다.
위 비선형 예시처럼 U자형·역U자형 관계가 있어도 상관계수는 0에 가까울 수 있다.
→ 산점도를 반드시 함께 확인해야 한다.
상관계수는 선형 관계의 강도만 측정한다.
위 비선형 예시처럼 U자형·역U자형 관계가 있어도 상관계수는 0에 가까울 수 있다.
→ 산점도를 반드시 함께 확인해야 한다.
공분산 vs 상관계수
| 구분 | 공분산 | 상관계수 |
|---|---|---|
| 범위 | −∞ ~ +∞ | −1 ~ +1 |
| 단위 | x단위 × y단위 | 무차원 |
| 비교 가능성 | 어려움 | 쉬움 (표준화됨) |
| 관계 | r = Cov(x,y) / (sₓ · sᵧ) | |
| 영점 의미 | 선형 관계 없음 | 선형 관계 없음 |
⚠️ 상관관계 ≠ 인과관계 (Correlation ≠ Causation)
상관계수는 두 변수 사이의 통계적 연관성만 측정한다. 원인-결과 관계를 의미하지 않는다.
📌 허위 상관(Spurious Correlation) 예시
아이스크림 판매량과 익사 사고 건수는 높은 양의 상관관계를 보인다.
→ 아이스크림이 익사를 유발하는 게 아니라, 둘 다 "여름(더위)"이라는 공통 원인의 결과다.
인과관계를 밝히려면 무작위 대조 실험(RCT) 또는 인과추론 방법론이 필요하다.
상관계수는 두 변수 사이의 통계적 연관성만 측정한다. 원인-결과 관계를 의미하지 않는다.
📌 허위 상관(Spurious Correlation) 예시
아이스크림 판매량과 익사 사고 건수는 높은 양의 상관관계를 보인다.
→ 아이스크림이 익사를 유발하는 게 아니라, 둘 다 "여름(더위)"이라는 공통 원인의 결과다.
인과관계를 밝히려면 무작위 대조 실험(RCT) 또는 인과추론 방법론이 필요하다.
상관계수
위 광고비-매출 예시의 상관계수 계산
앞서 광고비 x = [100, 150, 200, 250, 300], 매출 y = [500, 650, 800, 950, 1100]
공분산 = 18750, sₓ = 79.06, sᵧ = 237.17
공분산 = 18750, sₓ = 79.06, sᵧ = 237.17
r = 18750 / (79.06 × 237.17) ≈ 18750 / 18754 ≈ +1.00
→ 완전한 양의 선형 관계 (이 데이터는 완벽히 선형이므로 r=1)
→ 공분산(18750, 단위: 만원²)과 달리 상관계수는 크기 해석이 직관적
→ 완전한 양의 선형 관계 (이 데이터는 완벽히 선형이므로 r=1)
→ 공분산(18750, 단위: 만원²)과 달리 상관계수는 크기 해석이 직관적
📌 핵심 정리
- 정규화 목적: 변수 간 단위·척도 차이 제거 → 공정한 상대 비교
- 최소-최대: (xᵢ−min)/(max−min) → 0~1 범위. 이상치에 취약
- 중심화: xᵢ−x̄ → 평균 = 0
- 척도화: xᵢ/s → 표준편차 = 1
- 표준화(Z-score): (xᵢ−x̄)/s → 평균=0, 표준편차=1. 가장 많이 사용
- 정규화 ≠ 정규 분포: 분포 모양은 바뀌지 않고 위치·산포만 조정
- 공분산: (1/(n−1))·Σ(xᵢ−x̄)(yᵢ−ȳ). 방향은 알지만 단위 문제 있음
- 상관계수 r: Cov/( sₓ·sᵧ). −1~+1. 선형 관계 강도를 단위 없이 표현
- r=0 ≠ 무관계: 비선형 관계는 r=0이어도 존재할 수 있음 → 산점도 필수
- 상관 ≠ 인과: 높은 r이 원인-결과를 의미하지 않는다
728x90
'수학&통계학' 카테고리의 다른 글
| 통계적 가설 검정 (0) | 2026.05.13 |
|---|---|
| 통계적 추정 (0) | 2026.05.11 |
| 기술 통계량 (산포 측도) (0) | 2026.05.11 |
| 기술 통계량 (중심 측도) (0) | 2026.05.11 |
| 연속형 확률분포 : t분포, 카이제곱 분포, F분포 (0) | 2026.05.11 |