1. 기술통계 vs 추론통계
통계량이란?
본격적인 설명 전에 용어 하나를 짚고 가자. 통계학에서는 데이터에서 계산된 모든 숫자를 통계량(Statistics) 이라고 한다. 평균, 표준편차, 최댓값, 중앙값 모두 통계량이다.
기술통계 (Descriptive Statistics)
지금 가진 데이터 자체를 요약하고 설명하는 것이 목적이다. 미래를 예측하거나 전체를 추론하려는 게 아니라, 현재 데이터에 어떤 특성이 있는지를 파악한다.
방법은 크게 두 가지다.
- 집계: 합계, 평균, 표준편차, 최댓값, 최솟값 등 숫자로 요약
- 시각화: 히스토그램, 막대그래프, 산점도 등으로 시각적으로 표현
예시
"우리 팀 10명의 이번 달 영업 실적 평균은 320만 원이고, 가장 높은 사람은 580만 원이다."
이것이 기술통계다. 10명이라는 데이터 자체를 요약한 것이지, 다른 무언가를 추론하지 않는다.
집계와 시각화를 묶어 기초통계라고 부르기도 한다.
추론통계 (Inferential Statistics)
가진 데이터(표본)를 바탕으로 전체(모집단)를 추론하거나 미래를 예측하는 것이 목적이다. 불확실성이 존재하고, 확률을 계산해서 결론을 내린다.
대표적인 방법:
- 추정: 표본의 평균으로 전체 평균을 추정 (신뢰구간 등)
- 통계 검정: 가설이 맞는지 데이터로 검증 (t-검정, 카이제곱 검정 등)
- 확률 모형: 회귀 분석, 머신러닝 알고리즘 등
예시
"우리 팀 10명의 실적 데이터를 바탕으로, 전국 영업사원의 평균 실적이 300만 원 이상일 것이다."
이것이 추론통계다. 10명의 데이터로 전체를 추론하고 있다.
여기서 중요한 점이 있다. 머신러닝 알고리즘도 추론통계에 속한다. 머신러닝은 결국 데이터를 학습해 새로운 데이터에 대한 예측을 하는 것이고, 이는 확률 모형을 기반으로 미래나 전체를 추론하는 구조이기 때문이다.
기술통계 vs 추론통계 비교
| 구분 | 기술통계 | 추론통계 |
| 목적 | 현재 데이터 요약·설명 | 전체 추론 또는 미래 예측 |
| 방법 | 집계, 시각화 | 추정, 통계 검정, 확률 모형 |
| 불확실성 | 없음 (있는 데이터 그대로) | 있음 (확률로 표현) |
| 머신러닝 | 해당 없음 | 포함 |
| 예시 | 평균 키, 히스토그램 | 키 175cm 초과 여부 검정, 회귀 모형 |
2. 탐색적 데이터 분석(EDA) vs 확증적 데이터 분석(CDA)
확증적 데이터 분석 (CDA, Confirmatory Data Analysis)
분석 과제나 실험 계획에 따라 사전에 정해진 방법으로 분석하는 것이다. "이 약이 효과가 있는지 검정한다"처럼 목적과 방법이 분석 전에 이미 정해져 있다.
탐색적 데이터 분석 (EDA, Exploratory Data Analysis)
CDA와 달리, 정해진 방법 없이 데이터를 자유롭게 탐색하는 과정이다. 분석 초기 단계에서 데이터를 이해하고 숨어 있는 패턴이나 인사이트를 발견하는 것이 목적이다.
분석 주제나 절차에 상관없이 자유롭게 시도할 수 있고, 집계, 시각화, 알고리즘 등 다양한 방법을 필요에 따라 활용한다.
쉽게 말하면 이런 느낌이다.
CDA: "3번 슛을 20번 시도했을 때 성공률이 50% 이상인지 검정한다" (목적 고정)
EDA: "데이터를 여기저기 뜯어보다가, 특정 요일에 슛 성공률이 유독 낮다는 걸 발견한다" (자유 탐색)
EDA는 분석 방향을 잡기 위한 사전 작업으로 자주 활용된다. EDA를 통해 인사이트를 발견하면, 그것을 CDA로 검증하는 흐름이 일반적이다.
EDA vs CDA 비교
| 구분 | EDA | CDA |
| 목적 | 데이터에서 패턴·인사이트 탐색 | 사전에 정해진 가설 검증 |
| 방법 | 자유롭게 선택 | 정해진 통계 방법론 적용 |
| 시점 | 분석 초기 단계 | 분석 과제·계획이 정해진 후 |
| 결과 | 새로운 질문이나 가설 발견 | 가설의 참/거짓 판단 |
3. 지도학습 vs 비지도학습
머신러닝 알고리즘은 학습 방식에 따라 크게 지도학습, 비지도학습, 강화학습으로 나뉜다. 여기서는 데이터 분석에서 가장 자주 등장하는 지도학습과 비지도학습을 살펴본다.
지도학습 (Supervised Learning)
정답(label)이 있는 데이터로 학습하는 방식이다. 입력(X)과 정답(Y)의 관계를 학습해서, 새로운 입력에 대한 정답을 예측한다.
정답 변수를 종속변수, label, target 등 다양하게 부른다.
대표적인 활용:
- 분류(Classification): 이메일이 스팸인지 아닌지, 사진에서 고양이인지 강아지인지 구분
- 회귀(Regression): 집의 특성(면적, 위치, 층수)으로 집값 예측
비유하자면, 문제와 답이 모두 있는 문제집으로 공부하는 것과 같다. 정답을 보면서 패턴을 익히고, 새로운 문제에 적용한다.
비지도학습 (Unsupervised Learning)
정답 없이 데이터 자체의 구조와 패턴을 찾아내는 방식이다. 관심변수(label)가 없고, 데이터 안에서 유사한 것끼리 묶거나 구조를 파악하는 게 목적이다.
대표적인 활용:
- 군집화(Clustering): 비슷한 특성을 가진 고객끼리 묶어 고객 세그먼트 파악
- 차원 축소(Dimensionality Reduction): 많은 변수를 핵심 변수 몇 개로 압축
비유하자면, 답이 없는 데이터를 보고 스스로 분류 기준을 찾아내는 것과 같다. "이 고객들은 비슷한 구매 패턴을 가졌네" 하고 스스로 그룹을 만든다.
지도학습 vs 비지도학습 비교
| 구분 | 지도학습 | 비지도학습 |
| 정답(label) | 있음 | 없음 |
| 목적 | 새로운 데이터 예측 | 데이터 구조·패턴 탐색 |
| 대표 방법 | 회귀, 분류 | 군집화, 차원 축소 |
| 예시 | 스팸 메일 분류, 집값 예측 | 고객 세그먼트, 이상 패턴 탐지 |
4. 정형 데이터 분석 vs 비정형 데이터 분석
데이터는 어떤 형태로 저장되어 있느냐에 따라 분석 방법이 달라진다.
정형 데이터 (Structured Data)
행(관측치)과 열(변수)로 구성된 테이블 형태의 데이터다. 엑셀 시트나 데이터베이스 테이블처럼 구조가 명확하게 정의되어 있다.
- 기술통계, 추론통계, 회귀 분석, 의사결정나무 등 전통적인 분석 방법이 적합
- 데이터의 각 칸에 의미가 명확하게 정의되어 있어 처리가 상대적으로 쉬움
예: 고객 ID, 나이, 성별, 구매금액, 가입일 등이 열로 정리된 표
비정형 데이터 (Unstructured Data)
미리 정해진 구조 없이 자유로운 형태로 저장된 데이터다. 텍스트, 이미지, 음성, 동영상 등이 여기에 해당한다.
현재 생성되는 데이터의 대부분은 비정형 데이터라고 알려져 있다. SNS 게시물, 뉴스 기사, 사진, 영상, 녹음 파일 등이 모두 비정형이다.
분석을 위해서는 먼저 컴퓨터가 처리할 수 있는 형태로 변환해야 한다.
- 딥러닝 알고리즘을 주로 활용
- 임베딩(Embedding): 텍스트, 이미지 등을 숫자 벡터로 변환하는 과정
- "강아지"라는 단어를 [0.2, 0.8, 0.1, ...] 같은 숫자 배열로 변환하면 컴퓨터가 의미를 계산할 수 있음
- 임베딩을 통해 비정형 데이터를 정형화할 수 있음
GPT 같은 언어 모델도 결국 텍스트를 임베딩으로 변환한 뒤 처리하는 구조다.
정형 vs 비정형 데이터 분석 비교
| 구분 | 정형 데이터 | 비정형 데이터 |
| 형태 | 행·열 구조의 테이블 | 텍스트, 이미지, 영상 등 |
| 예시 | 고객 DB, 매출 데이터 | SNS 게시물, 사진, 음성 |
| 주요 분석법 | 기술통계, 회귀, 분류 | 딥러닝, 자연어 처리(NLP) |
| 전처리 | 결측값·이상값 처리 | 임베딩으로 수치화 필요 |
분석 방법 구분 총정리
분석 방법은 어떤 기준으로 나누느냐에 따라 달라진다.
통계적 목적에 따라
기술통계 ←→ 추론통계
분석 목적에 따라
탐색적 분석(EDA) ←→ 확증적 분석(CDA)
학습 방식에 따라
지도학습 ←→ 비지도학습
데이터 형태에 따라
정형 데이터 분석 ←→ 비정형 데이터 분석
이 4가지 기준은 서로 독립적이다. 예를 들어 EDA(탐색적 분석)를 할 때 기술통계를 쓸 수도 있고, 지도학습 알고리즘을 써볼 수도 있다. 분석 방법에 정해진 하나의 답이 있는 게 아니라, 데이터와 목적에 맞게 조합해서 쓰는 것이다.
분석 방법을 분류하는 기준을 알고 나면, 새로운 분석 상황에서도 어떤 방법이 적합한지 스스로 판단할 수 있게 된다.
- 데이터를 처음 받았을 때 → EDA로 탐색부터
- 현재 데이터의 특성을 파악할 때 → 기술통계
- 전체나 미래를 예측하고 싶을 때 → 추론통계 / 머신러닝
- 정답 데이터가 있다면 → 지도학습
- 정답 없이 패턴을 찾고 싶다면 → 비지도학습
- 텍스트나 이미지 데이터라면 → 비정형 데이터 분석 (딥러닝)
'수학&통계학' 카테고리의 다른 글
| 통계 개념 (3) : 측정과 척도 및 기타 용어 (0) | 2026.05.10 |
|---|---|
| 통계 개념(2) : 모집단과 표본, 표본추출 (0) | 2026.05.10 |
| 통계 개념 (1) : 자료와 확률변수 (0) | 2026.05.10 |
| 데이터 분석 (2) : 결측값, 이상값 처리 (0) | 2026.05.10 |
| 데이터 분석 (1) : 데이터 처리 (1) | 2026.05.10 |