데이터 변환 및 관계 분석

728x90

데이터를 분석하다 보면 변수마다 단위와 범위가 제각각이라 직접 비교가 어려운 경우가 많다.
키(cm)와 몸무게(kg)를 그대로 놓고 어느 변수가 더 큰 영향을 주는지 비교할 수 없는 것처럼.
이번 글에서는 변수를 같은 기준으로 맞추는 정규화(Normalization)와, 두 변수 사이의 관계를 수치화하는 공분산·상관계수를 정리한다.

1. 정규화 (Normalization)

왜 정규화가 필요한가?

변수들은 서로 다른 위치 특성(평균)과 산포 특성(분산)을 갖는다. 여러 변수를 함께 분석할 때 각 변수의 척도와 단위 차이를 그대로 두면 특정 변수가 결과를 지배하게 된다.

❓ 구체적으로 어떤 문제가 생길까?

머신러닝 모델에서 나이(20~80)와 연봉(1000~10000만원)을 함께 쓴다고 하자.
연봉의 숫자 자체가 훨씬 크기 때문에 모델이 나이보다 연봉에 훨씬 큰 가중치를 부여하는 경향이 생긴다.
→ 정규화를 통해 두 변수를 같은 스케일로 맞춰야 공정한 비교가 가능하다.

정규화 방법은 크게 네 가지로 나뉜다. 목적에 따라 적합한 방법을 선택해서 사용한다.

①

최소-최대 정규화

Min-Max Normalization

x^new = (xᵢ − x_min) / (x_max − x_min)

관측치에서 최솟값을 빼고, 범위(최댓값−최솟값)로 나눈다.
변환 후 모든 값은 0 ~ 1 사이로 변환된다.
변수 간 상대 비교에 활용.

②

중심화

Centering

x^new = xᵢ − x̄

각 관측치에서 평균을 뺀다.
변환된 데이터의 평균은 0이 된다.
분포의 위치를 원점으로 이동시키는 효과.

③

척도화

Scaling

x^new = xᵢ / s

각 관측치를 표준편차(s)로 나눈다.
변환된 데이터의 표준편차는 1이 된다.
단위를 제거해 산포를 통일시키는 효과.

④

표준화

Standardization (Z-score)

x^new = (xᵢ − x̄) / s

중심화(평균 빼기) + 척도화(표준편차 나누기)를 동시에 적용.
변환 후 평균 = 0, 표준편차 = 1.
가장 많이 사용되는 정규화 방법.

① 최소-최대 정규화 계산 예시

원본 데이터 (점수)

40
60
70
80
100

→

Min=40, Max=100, 범위=60

(40−40)/60
(60−40)/60
(70−40)/60
(80−40)/60
(100−40)/60

→

변환 후 (0~1 범위)

0.00
0.33
0.50
0.67
1.00

④ 표준화(Z-score) 계산 예시

원본 데이터 (점수)

50
60
70
80
90

→

x̄=70, s≈15.8

(50−70)/15.8
(60−70)/15.8
(70−70)/15.8
(80−70)/15.8
(90−70)/15.8

→

Z-score (평균=0)

−1.26
−0.63
0.00
+0.63
+1.26

네 가지 정규화 방법 비교

방법	공식	변환 후 평균	변환 후 표준편차	범위
최소-최대	(xᵢ−min)/(max−min)	0이 아닐 수 있음	1이 아닐 수 있음	0 ~ 1
중심화	xᵢ − x̄	0	변화 없음	제한 없음
척도화	xᵢ / s	변화 없음	1	제한 없음
표준화	(xᵢ − x̄) / s	0	1	제한 없음

💡 정규화(Normalization)와 정규 분포(Normal Distribution)는 무관하다
통계에서 "정규(Normal)"라는 단어는 두 가지 전혀 다른 맥락에서 쓰인다.
• 정규 분포: Normal Distribution — 종 모양의 확률 분포
• 정규화: Normalization의 normal — "보통", "일반적인" 기준에 맞춘다는 의미
→ 정규화를 해도 데이터가 정규 분포를 따르게 되는 것이 아니다. 분포 모양은 그대로이고, 위치(평균)와 산포(표준편차)만 바뀐다.

💡 최소-최대 vs 표준화, 언제 무엇을 쓰나?
• 최소-최대 정규화: 이상치가 없고, 0~1 범위가 필요할 때 (신경망 입력값, 이미지 픽셀 등)
• 표준화: 이상치가 있거나 정규분포 가정이 필요한 분석 (회귀분석, SVM, PCA 등)
→ 이상치가 있을 때 최소-최대는 이상치에 의해 나머지 값이 좁은 범위에 몰릴 수 있어 표준화가 더 안전하다.

표준화

대입 수능 vs SAT 점수 비교

한국 수능(최고점 400점)과 미국 SAT(최고점 1600점)는 단위 자체가 다르다. 두 시험을 그대로 비교할 수 없다. Z-score로 표준화하면 상대적 위치를 비교할 수 있다.

수능 350점 (전체 평균 280, 표준편차 35) → Z = (350−280)/35 = +2.0
SAT 1380점 (전체 평균 1050, 표준편차 200) → Z = (1380−1050)/200 = +1.65
→ 수능 Z=2.0 > SAT Z=1.65 → 수능이 상대적으로 더 높은 위치

최소-최대

머신러닝 모델 피처 스케일링

집값 예측 모델에서 방 개수(1~10개)와 면적(20~300㎡)을 함께 입력할 때, 면적의 숫자가 크기 때문에 모델이 면적을 과도하게 중요시할 수 있다.

방 개수 5개 → (5−1)/(10−1) = 0.44
면적 120㎡ → (120−20)/(300−20) = 0.36
→ 두 피처가 0~1 범위로 통일되어 공정하게 학습에 기여

2. 공분산 (Covariance)

개념

두 변수 x와 y의 관계를 탐색하기 위해 산점도(Scatterplot)를 그리고, 그 관계를 하나의 수치로 요약한 것이 공분산이다. 분산의 계산식을 응용해 두 변수의 편차를 곱한 평균으로 계산한다.

q_xy = (1/(n−1)) · Σ(xᵢ − x̄)(yᵢ − ȳ)

n: 관측치 수 | x̄: x의 평균 | ȳ: y의 평균
분모가 (n−1)인 이유: 표본 공분산의 불편 추정량 (베셀 보정)

공분산의 직관적 이해

x가 평균보다 크고 y도 평균보다 크면 (xᵢ − x̄) > 0, (yᵢ − ȳ) > 0 → 곱 > 0
→ 두 변수가 같은 방향으로 움직임 x가 평균보다 크고 y는 평균보다 작으면 (xᵢ − x̄) > 0, (yᵢ − ȳ) < 0 → 곱 < 0
→ 두 변수가 반대 방향으로 움직임 공분산 부호 해석 q_xy > 0: x가 클수록 y도 큰 경향 → 양의 관계
q_xy < 0: x가 클수록 y는 작은 경향 → 음의 관계
q_xy = 0: 선형 관계 없음 → 무관계 → 단, 비선형 관계는 공분산이 0이어도 존재할 수 있다

산점도와 공분산

두 변수의 관계를 시각적으로 파악하려면 산점도를 먼저 그린다.

📌 수학 점수(x)와 국어 점수(y)의 산점도

수학 점수 국어 점수 0 100 100 (80,90) (75,80) (100,100) (60,55) (90,85)

수학 점수가 높을수록 국어 점수도 높은 경향 → 양의 공분산 예상

공분산의 한계

⚠️ 공분산만으로 관계의 강도를 비교하기 어렵다
공분산의 단위는 x의 단위 × y의 단위다.
예) 키(cm)와 몸무게(kg)의 공분산 단위 = cm·kg
→ 절댓값이 크다고 해서 관계가 강한 건지, 단순히 단위가 커서인지 구별할 수 없다.
→ 이 문제를 해결하기 위해 상관계수를 사용한다.

공분산

광고비와 매출의 관계

5개월간 데이터: 광고비(만원) x = [100, 150, 200, 250, 300], 매출(만원) y = [500, 650, 800, 950, 1100]
x̄ = 200, ȳ = 800

편차 곱: (−100)(−300) + (−50)(−150) + (0)(0) + (50)(150) + (100)(300)
= 30000 + 7500 + 0 + 7500 + 30000 = 75000
공분산 = 75000 / (5−1) = 18750 (만원²)
→ 양수 → 광고비가 늘수록 매출도 느는 경향. 단, 단위(만원²)라 절댓값 해석은 어렵다.

3. 상관계수 (Correlation Coefficient)

개념

상관계수는 표준화된 두 변수를 활용해 계산한 공분산이다. 각 변수의 표준편차로 나눠 단위를 제거하므로, 항상 −1 ~ +1 사이의 값을 가진다. ρ (로) 또는 r로 표기한다.

r_xy = (1/(n−1)) · Σ((xᵢ−x̄)/sₓ) · ((yᵢ−ȳ)/sᵧ) = q_xy / (sₓ · sᵧ)

sₓ: x의 표준편차 | sᵧ: y의 표준편차
−1 ≤ r_xy ≤ +1 (코시-슈바르츠 부등식으로 증명)

상관계수 값 해석

−1
완전 음상관 −0.7
강한 음 0
무상관 +0.7
강한 양 +1
완전 양상관

산점도 패턴과 상관계수

양의 상관

r ≈ +0.95

x↑ → y↑

음의 상관

r ≈ −0.95

x↑ → y↓

상관 없음

r ≈ 0

패턴 없음

비선형 관계

r ≈ 0 (but 관계 있음!)

상관계수=0 ≠ 무관계

⚠️ 상관계수 = 0이어도 관계가 없는 게 아닐 수 있다
상관계수는 선형 관계의 강도만 측정한다.
위 비선형 예시처럼 U자형·역U자형 관계가 있어도 상관계수는 0에 가까울 수 있다.
→ 산점도를 반드시 함께 확인해야 한다.

공분산 vs 상관계수

구분	공분산	상관계수
범위	−∞ ~ +∞	−1 ~ +1
단위	x단위 × y단위	무차원
비교 가능성	어려움	쉬움 (표준화됨)
관계	r = Cov(x,y) / (sₓ · sᵧ)
영점 의미	선형 관계 없음	선형 관계 없음

⚠️ 상관관계 ≠ 인과관계 (Correlation ≠ Causation)
상관계수는 두 변수 사이의 통계적 연관성만 측정한다. 원인-결과 관계를 의미하지 않는다.

📌 허위 상관(Spurious Correlation) 예시
아이스크림 판매량과 익사 사고 건수는 높은 양의 상관관계를 보인다.
→ 아이스크림이 익사를 유발하는 게 아니라, 둘 다 "여름(더위)"이라는 공통 원인의 결과다.

인과관계를 밝히려면 무작위 대조 실험(RCT) 또는 인과추론 방법론이 필요하다.

상관계수

위 광고비-매출 예시의 상관계수 계산

앞서 광고비 x = [100, 150, 200, 250, 300], 매출 y = [500, 650, 800, 950, 1100]
공분산 = 18750, sₓ = 79.06, sᵧ = 237.17

r = 18750 / (79.06 × 237.17) ≈ 18750 / 18754 ≈ +1.00
→ 완전한 양의 선형 관계 (이 데이터는 완벽히 선형이므로 r=1)
→ 공분산(18750, 단위: 만원²)과 달리 상관계수는 크기 해석이 직관적

📌 핵심 정리

정규화 목적: 변수 간 단위·척도 차이 제거 → 공정한 상대 비교
최소-최대: (xᵢ−min)/(max−min) → 0~1 범위. 이상치에 취약
중심화: xᵢ−x̄ → 평균 = 0
척도화: xᵢ/s → 표준편차 = 1
표준화(Z-score): (xᵢ−x̄)/s → 평균=0, 표준편차=1. 가장 많이 사용
정규화 ≠ 정규 분포: 분포 모양은 바뀌지 않고 위치·산포만 조정
공분산: (1/(n−1))·Σ(xᵢ−x̄)(yᵢ−ȳ). 방향은 알지만 단위 문제 있음
상관계수 r: Cov/( sₓ·sᵧ). −1~+1. 선형 관계 강도를 단위 없이 표현
r=0 ≠ 무관계: 비선형 관계는 r=0이어도 존재할 수 있음 → 산점도 필수
상관 ≠ 인과: 높은 r이 원인-결과를 의미하지 않는다

728x90

'수학&통계학' 카테고리의 다른 글

통계적 가설 검정 (0)	2026.05.13
통계적 추정 (0)	2026.05.11
기술 통계량 (산포 측도) (0)	2026.05.11
기술 통계량 (중심 측도) (0)	2026.05.11
연속형 확률분포 : t분포, 카이제곱 분포, F분포 (0)	2026.05.11

구구 코스모스

데이터 변환 및 관계 분석

1. 정규화 (Normalization)

왜 정규화가 필요한가?

① 최소-최대 정규화 계산 예시

④ 표준화(Z-score) 계산 예시

네 가지 정규화 방법 비교

2. 공분산 (Covariance)

개념

공분산의 직관적 이해

산점도와 공분산

공분산의 한계

3. 상관계수 (Correlation Coefficient)

개념

상관계수 값 해석

산점도 패턴과 상관계수

공분산 vs 상관계수

📌 핵심 정리

'수학&통계학' 카테고리의 다른 글

티스토리툴바

데이터 변환 및 관계 분석

1. 정규화 (Normalization)

왜 정규화가 필요한가?

① 최소-최대 정규화 계산 예시

④ 표준화(Z-score) 계산 예시

네 가지 정규화 방법 비교

2. 공분산 (Covariance)

개념

공분산의 직관적 이해

산점도와 공분산

공분산의 한계

3. 상관계수 (Correlation Coefficient)

개념

상관계수 값 해석

산점도 패턴과 상관계수

공분산 vs 상관계수

📌 핵심 정리

'수학&통계학' 카테고리의 다른 글

관련글

티스토리툴바