이번 2편에서는 이 뉴런들을 어떻게 쌓느냐에 따라 달라지는 신경망 모형의 종류를 정리한다.
완전 연결망(MLP), 이미지에 특화된 CNN, 시계열·순서에 강한 RNN과 LSTM까지 각각의 원리와 차이를 이해해보자.
1. MLP — 다층 퍼셉트론 (Multi-Layer Perceptron)
개념
가장 기본적인 신경망 구조다. 입력층, 하나 이상의 은닉층, 출력층으로 구성되며 모든 층이 완전 연결(Fully Connected)되어 있다. 완전 연결이란 한 층의 모든 뉴런이 다음 층의 모든 뉴런과 연결된다는 뜻이다. Dense Layer, FC Layer라고도 부른다.

MLP의 특징과 한계
- 표 형태 데이터에 가장 적합하다
- 모든 층이 완전 연결이므로 입력의 순서나 위치 정보를 고려하지 않는다
- 이미지를 MLP에 넣으려면 픽셀을 1차원으로 펼쳐야 한다 → 공간 구조 손실
- 파라미터 수가 빠르게 증가한다. 100×100 이미지: 10,000개 입력 → 은닉층 노드 1,000개면 가중치만 1,000만 개
수학적으로 은닉층 하나와 충분히 많은 뉴런이 있으면 어떤 연속 함수도 근사할 수 있다.
그러나 "충분히 많은 뉴런"이 비현실적으로 클 수 있어서, 실제로는 층을 더 깊게(Deep) 쌓는 것이 더 효율적이다.
2. CNN — 합성곱 신경망 (Convolutional Neural Network)
왜 이미지에는 MLP가 부족한가?
이미지에서 "고양이의 귀"는 왼쪽 위에 있을 수도, 오른쪽에 있을 수도 있다. MLP는 위치가 달라지면 완전히 다른 패턴으로 인식한다. 또한 이미지의 픽셀을 모두 연결하면 파라미터 수가 폭발적으로 증가한다.
CNN은 이 두 문제를 합성곱 연산(Convolution)으로 해결한다.
합성곱 연산 (Convolution)
작은 필터(커널)를 이미지 위에서 슬라이딩하며 특징을 추출한다. 같은 필터가 이미지 전체를 훑으므로 위치에 무관하게 같은 특징을 감지할 수 있다. 이를 파라미터 공유(Parameter Sharing)라고 한다.

CNN의 핵심 구성 요소
필터 수 = 출력 채널 수
각 필터가 서로 다른 패턴(엣지, 곡선, 색상 등)을 감지한다.
Max Pooling: 영역 내 최댓값 선택
Average Pooling: 영역 내 평균값
→ 계산량 감소 + 위치 변화에 강건
최종 출력 전에 위치한다.
Dropout으로 과적합 방지.
CNN의 계층적 특징 학습
CNN은 층이 깊어질수록 추상적인 특징을 학습한다.
- 얕은 층: 엣지(선), 색상 변화 같은 저수준 특징
- 중간 층: 눈, 코, 바퀴 같은 중수준 특징
- 깊은 층: 얼굴, 자동차 같은 고수준 특징
• 필터 크기(Kernel Size): 보통 3×3 또는 5×5. 작을수록 세밀한 특징
• 필터 수(Channels): 출력 특징맵의 수. 많을수록 다양한 특징 감지
• 스트라이드(Stride): 필터가 한 번에 이동하는 칸 수. 크면 출력 크기 감소
• 패딩(Padding): 입력 경계에 0을 추가해 출력 크기 유지 (Same Padding)
• LeNet-5 (1998): 최초의 성공적 CNN. 손글씨 인식
• AlexNet (2012): ImageNet 대회에서 압도적 우승. 딥러닝 붐의 시작
• VGGNet: 3×3 필터만 반복. 단순하지만 깊은 구조
• ResNet: 잔차 연결(Skip Connection)으로 100층 이상 학습 가능
• EfficientNet: 깊이·너비·해상도를 동시에 최적화
3. RNN — 순환 신경망 (Recurrent Neural Network)
왜 시계열에는 MLP·CNN이 부족한가?
"오늘 주가는 어제 주가와 관련이 있다." "문장에서 단어의 의미는 앞 단어에 따라 달라진다." MLP와 CNN은 각 입력을 독립적으로 처리하기 때문에 이런 순서와 맥락(Context)을 고려할 수 없다.
RNN은 이전 시점의 출력을 현재 시점의 입력으로 다시 사용하는 순환 구조로 이 문제를 해결한다.

RNN의 수식
h(t−1): 이전 시점의 은닉 상태 | x(t): 현재 시점의 입력
W_h, W_x: 가중치 (모든 시점에서 공유됨) | b: 편향
"나는 어제 서울에서 출발해서 여러 곳을 들른 뒤 결국 부산에 도착했다"
→ "부산"을 예측하려면 문장 앞쪽의 "서울"이 중요하지만, 시점이 멀수록 기울기가 소실되어 앞쪽 정보를 기억하기 어렵다.
→ 이를 해결한 것이 LSTM과 GRU다.
4. LSTM — 장단기 기억망 (Long Short-Term Memory)
개념
LSTM은 RNN의 장기 의존성 문제를 해결하기 위해 설계되었다. 핵심 아이디어는 셀 상태(Cell State)라는 별도의 기억 통로를 추가하고, 세 가지 게이트(Gate)로 정보의 흐름을 제어하는 것이다.
시그모이드 출력 0에 가까우면 "잊어라", 1에 가까우면 "유지하라"
f(t) = σ(W_f · [h(t−1), x(t)] + b_f)
시그모이드(얼마나)와 tanh(어떤 정보)의 조합
i(t) = σ(W_i · [h(t−1), x(t)] + b_i)
C̃(t) = tanh(W_c · [h(t−1), x(t)] + b_c)
현재 입력과 이전 은닉 상태를 보고 출력 결정
o(t) = σ(W_o · [h(t−1), x(t)] + b_o)
h(t) = o(t) · tanh(C(t))
f(t) ⊙ C(t−1): 이전 셀 상태 중 유지할 정보
i(t) ⊙ C̃(t): 새로 추가할 정보
→ 셀 상태가 기울기 없이 흘러갈 수 있어 장기 의존성 문제 완화
GRU (Gated Recurrent Unit)
LSTM을 단순화한 변형으로, 게이트를 2개(업데이트 게이트, 리셋 게이트)로 줄였다. LSTM보다 파라미터 수가 적어 학습이 빠르고, 많은 경우 LSTM과 비슷한 성능을 낸다.
| 구분 | RNN | LSTM | GRU |
|---|---|---|---|
| 게이트 수 | 없음 | 3개 (Forget/Input/Output) | 2개 (Update/Reset) |
| 셀 상태 | 없음 | 있음 | 없음 (은닉 상태로 통합) |
| 파라미터 수 | 적음 | 많음 | 중간 |
| 장기 의존성 | 약함 | 강함 | 강함 |
| 학습 속도 | 빠름 | 느림 | 중간 |
| 주요 활용 | 단순 시계열 | 번역, 음성, 텍스트 | LSTM 대안 |
5. MLP vs CNN vs RNN/LSTM — 언제 무엇을 쓰나
| 문제 유형 | 권장 모형 | 이유 |
|---|---|---|
| 표 형태 데이터 분류/회귀 | MLP | 순서·공간 구조 없음 |
| 이미지 분류·탐지·분할 | CNN | 공간 구조, 위치 불변성 |
| 시계열 예측 (주가, 기온) | RNN/LSTM/GRU | 순서와 장기 의존성 |
| 자연어 처리 (번역, 요약) | LSTM → Transformer | 문맥 의존성 |
| 음성 인식 | CNN+RNN 또는 Transformer | 시간+주파수 특성 동시 처리 |
| 영상(Video) 분류 | CNN+RNN | 공간(CNN) + 시간(RNN) |
LSTM은 순차적으로 계산해야 해서 병렬화가 어렵다.
Transformer의 어텐션 메커니즘(Attention Mechanism)은 모든 위치를 동시에 참조해서
장기 의존성을 더 효과적으로 처리하고 GPU 병렬 처리도 가능하다.
→ GPT, BERT 등 현대 LLM은 모두 Transformer 기반. (Transformer는 3편에서 간략히 소개)
📌 2편 핵심 정리
- MLP: 완전 연결층만으로 구성. 표 형태 데이터에 적합. 위치·순서 무시
- 파라미터 수: 층 수 × (이전 노드 수 × 현재 노드 수 + 편향 수)
- 보편 근사 정리: 충분한 뉴런이면 어떤 함수도 근사 가능. 실제로는 깊은 망이 효율적
- CNN: 합성곱 + 풀링. 이미지처럼 공간 구조가 있는 데이터에 최적
- 파라미터 공유: 같은 필터를 전체 이미지에 적용 → 파라미터 수 절감
- CNN 계층: 얕은 층(엣지) → 중간(부분 특징) → 깊은 층(객체)
- RNN: 이전 시점 은닉 상태를 현재 입력에 결합. 순서 데이터 처리
- 장기 의존성 문제: 시점이 멀수록 기울기 소실로 앞 정보 망각
- LSTM: 셀 상태 + 3개 게이트(망각/입력/출력)로 장기 의존성 해결
- GRU: LSTM 단순화. 파라미터 적고 빠름. 성능 유사
- 최근 트렌드: Transformer(Attention)이 LSTM을 대부분 대체
▶ 3편에서는 순전파·역전파·경사하강법 등 학습 과정을 다룬다.
'수학&통계학' 카테고리의 다른 글
| 인공신경망 모형(ANN) (3) : 모형 학습 과정 (0) | 2026.05.14 |
|---|---|
| 인공신경망 모형(ANN) (1) : 뉴런, 층, 활성화 함수 (0) | 2026.05.14 |
| 앙상블 기법 (0) | 2026.05.14 |
| 의사결정나무 (0) | 2026.05.14 |
| K-NN (0) | 2026.05.14 |