그런데 사람의 뇌는 어떻게 작동하는가? 그 원리를 흉내 낸 것이 인공신경망(Artificial Neural Network)이다.
이번 글(1편)에서는 인공신경망의 기본 단위인 뉴런의 구조, 층(Layer)의 종류, 그리고 비선형성을 부여하는 활성화 함수까지 정리한다.
1. 인공신경망이란?
인공신경망은 사람 뇌의 뉴런(신경세포) 구조에서 영감을 받은 모델이다. 수많은 인공 뉴런(노드)이 연결되어 데이터를 처리한다. 단순한 선형 모델과 달리, 층을 깊게 쌓으면 매우 복잡한 패턴도 학습할 수 있다.

수상돌기(Dendrite) → 입력값(x₁, x₂, x₃)
시냅스 강도 → 가중치(w₁, w₂, w₃)
세포체(Soma) → 가중합 계산 + 활성화 함수 적용
축삭(Axon) → 출력값
→ 단, 실제 뇌는 훨씬 복잡하고 인공신경망은 이를 크게 단순화한 수학적 모델이다.
2. 인공 뉴런(퍼셉트론)의 작동 원리
인공 뉴런의 동작은 두 단계로 이루어진다.
1단계: 가중합 계산
b: 편향(bias) — 뉴런의 활성화 기준을 조절하는 상수
w·x: 가중치 벡터와 입력 벡터의 내적
2단계: 활성화 함수 적용
활성화 함수 없이 가중합만 하면 아무리 층을 쌓아도 선형 모델과 같아진다
x₂ = 3 (링크 수)
x₃ = 0 (아는 발신자: 아니오)
w₁ = 0.8, w₂ = 0.3, w₃ = −0.9, b = −0.5
= 0.8 + 0.9 + 0 − 0.5 = 1.2
→ 77% 확률로 스팸 → 임계값 0.5 초과 → 스팸으로 분류
3. 층(Layer)의 종류
인공신경망은 여러 층을 쌓아서 만든다. 각 층은 역할이 다르다.

① 입력층 (Input Layer)
데이터를 받아들이는 층이다. 노드 수 = 입력 특성(feature) 수와 같다. 별도의 계산 없이 데이터를 그대로 다음 층으로 전달한다. 이미지라면 픽셀 수, 표 형태 데이터라면 컬럼 수가 노드 수가 된다.
② 은닉층 (Hidden Layer)
입력층과 출력층 사이의 모든 층이다. 외부에서 직접 보이지 않아서 "숨겨진(Hidden)" 층이라 부른다. 은닉층의 수와 각 층의 노드 수가 신경망의 표현력을 결정한다. 은닉층이 2개 이상이면 깊은 신경망(Deep Neural Network)이라 부른다.
각 은닉 노드는 이전 층의 모든 출력을 받아 가중합을 계산하고 활성화 함수를 적용한다. 이 과정에서 데이터의 복잡한 특징(feature)을 자동으로 추출한다.
③ 출력층 (Output Layer)
최종 예측값을 출력하는 층이다. 노드 수와 활성화 함수는 문제 유형에 따라 달라진다.
| 문제 유형 | 출력 노드 수 | 출력층 활성화 함수 | 출력값 해석 |
|---|---|---|---|
| 이진 분류 | 1개 | 시그모이드(Sigmoid) | 양성 확률 (0~1) |
| 다중 분류 (K개 클래스) | K개 | 소프트맥스(Softmax) | 각 클래스 확률 (합=1) |
| 회귀 | 1개 | 없음 (선형) | 연속값 예측 |
| 다중 레이블 분류 | K개 | 시그모이드 (각각) | 각 레이블 독립 확률 |
4. 활성화 함수 (Activation Function)
왜 활성화 함수가 필요한가?
활성화 함수 없이 선형 변환만 반복하면 층이 아무리 많아도 결국 하나의 선형 변환이 된다.
→ 활성화 함수가 비선형성을 부여해야 복잡한 패턴 학습이 가능하다
주요 활성화 함수
S자 곡선 형태. 출력을 0~1 사이로 압축해 확률로 해석 가능하다.
시그모이드를 −1~+1로 늘린 것. 0 중심이라 시그모이드보다 학습이 안정적이다.
z > 0이면 그대로, z ≤ 0이면 0을 출력한다. 계산이 매우 빠르고 기울기 소실 문제를 크게 줄인다. 현재 딥러닝에서 가장 많이 사용되는 활성화 함수.
죽은 ReLU 문제를 해결하기 위해 z < 0 구간에도 작은 기울기를 허용한다.
ELU: z < 0에서 지수 함수 사용 → 더 부드러운 전환
PReLU: 음수 구간 기울기도 학습 파라미터로 설정
K개의 출력값을 확률 분포로 변환한다. 모든 출력의 합이 1이 되어 다중 분류의 확률 해석이 가능하다. 가장 큰 값을 가진 클래스가 예측 클래스.
ReLU의 단점을 보완한 최신 활성화 함수.
GELU: GPT, BERT 등 Transformer 모델의 표준
Swish: Google이 자동 탐색으로 발견, 일부 모델에서 ReLU보다 우수

5. 활성화 함수 선택 가이드
| 위치 | 권장 함수 | 이유 |
|---|---|---|
| 은닉층 (일반) | ReLU | 빠르고 효과적, 기울기 소실 방지 |
| 은닉층 (ReLU 문제 시) | Leaky ReLU / ELU | 죽은 ReLU 해결 |
| 은닉층 (Transformer) | GELU | 대형 언어 모델 표준 |
| 출력층 (이진 분류) | Sigmoid | 확률값 (0~1) 출력 |
| 출력층 (다중 분류) | Softmax | 클래스별 확률, 합=1 |
| 출력층 (회귀) | 없음 (선형) | 연속값 그대로 출력 |
| RNN/LSTM 내부 | tanh / Sigmoid | 게이트 구조에 맞는 범위 |
층이 깊어질수록 역전파 시 기울기가 0에 가까워지는 현상이다.
Sigmoid와 tanh는 입력이 크거나 작으면 기울기가 거의 0이 된다.
이 기울기가 곱해지며 앞쪽 층으로 전달될수록 점점 작아져 학습이 멈춘다.
→ ReLU, 배치 정규화, 잔차 연결(ResNet) 등으로 해결한다.
📌 핵심 정리
- 인공 뉴런: 가중합(z = w·x + b) → 활성화 함수 f(z) → 출력
- 가중치 w: 각 입력의 중요도. 학습을 통해 조정됨
- 편향 b: 활성화 기준점. 역시 학습 파라미터
- 입력층: 데이터 수신, 노드 수 = 특성 수
- 은닉층: 특징 추출. 2층 이상이면 깊은 신경망(DNN)
- 출력층: 최종 예측. 문제 유형에 따라 노드 수·활성화 함수 결정
- 활성화 함수 필요 이유: 비선형성 부여. 없으면 아무리 깊어도 선형 모델
- ReLU: 은닉층 기본값. 빠르고 기울기 소실 방지
- Sigmoid: 이진 분류 출력층. 기울기 소실 주의
- Softmax: 다중 분류 출력층. 클래스별 확률, 합=1
- 기울기 소실: 깊은 망에서 기울기가 0에 수렴 → ReLU로 완화
▶ 2편에서는 MLP, CNN, RNN/LSTM 등 모형 분류를 다룬다.
'수학&통계학' 카테고리의 다른 글
| 인공신경망 모형(ANN) (3) : 모형 학습 과정 (0) | 2026.05.14 |
|---|---|
| 인공신경망 모형(ANN) (2) : 신경망 모형 분류 (0) | 2026.05.14 |
| 앙상블 기법 (0) | 2026.05.14 |
| 의사결정나무 (0) | 2026.05.14 |
| K-NN (0) | 2026.05.14 |