인공신경망 모형(ANN) (1) : 뉴런, 층, 활성화 함수

결정 트리는 사람이 읽을 수 있고, SVM은 수학적으로 명확하다.
그런데 사람의 뇌는 어떻게 작동하는가? 그 원리를 흉내 낸 것이 인공신경망(Artificial Neural Network)이다.
이번 글(1편)에서는 인공신경망의 기본 단위인 뉴런의 구조, 층(Layer)의 종류, 그리고 비선형성을 부여하는 활성화 함수까지 정리한다.

1. 인공신경망이란?

인공신경망은 사람 뇌의 뉴런(신경세포) 구조에서 영감을 받은 모델이다. 수많은 인공 뉴런(노드)이 연결되어 데이터를 처리한다. 단순한 선형 모델과 달리, 층을 깊게 쌓으면 매우 복잡한 패턴도 학습할 수 있다.

💡 생물 뉴런과 인공 뉴런의 대응 관계
수상돌기(Dendrite) → 입력값(x₁, x₂, x₃)
시냅스 강도 → 가중치(w₁, w₂, w₃)
세포체(Soma) → 가중합 계산 + 활성화 함수 적용
축삭(Axon) → 출력값
→ 단, 실제 뇌는 훨씬 복잡하고 인공신경망은 이를 크게 단순화한 수학적 모델이다.

2. 인공 뉴런(퍼셉트론)의 작동 원리

인공 뉴런의 동작은 두 단계로 이루어진다.

1단계: 가중합 계산

z = w₁x₁ + w₂x₂ + ··· + wₙxₙ + b = w·x + b

xᵢ: i번째 입력값 | wᵢ: i번째 가중치(weight) — 각 입력의 중요도
b: 편향(bias) — 뉴런의 활성화 기준을 조절하는 상수
w·x: 가중치 벡터와 입력 벡터의 내적

2단계: 활성화 함수 적용

output = f(z) = f(w·x + b)

f: 활성화 함수 — 비선형성을 부여한다
활성화 함수 없이 가중합만 하면 아무리 층을 쌓아도 선형 모델과 같아진다

📌 단일 뉴런 계산 예시 — 이메일 스팸 여부 판단

입력과 가중치

x₁ = 1 (광고 단어 포함 여부: 있음)
x₂ = 3 (링크 수)
x₃ = 0 (아는 발신자: 아니오)
w₁ = 0.8, w₂ = 0.3, w₃ = −0.9, b = −0.5

가중합 계산

z = 0.8×1 + 0.3×3 + (−0.9)×0 + (−0.5)
= 0.8 + 0.9 + 0 − 0.5 = 1.2

시그모이드 활성화 함수 적용

output = σ(1.2) = 1 / (1 + e^(−1.2)) ≈ 0.769
→ 77% 확률로 스팸 → 임계값 0.5 초과 → 스팸으로 분류

3. 층(Layer)의 종류

인공신경망은 여러 층을 쌓아서 만든다. 각 층은 역할이 다르다.

① 입력층 (Input Layer)

데이터를 받아들이는 층이다. 노드 수 = 입력 특성(feature) 수와 같다. 별도의 계산 없이 데이터를 그대로 다음 층으로 전달한다. 이미지라면 픽셀 수, 표 형태 데이터라면 컬럼 수가 노드 수가 된다.

② 은닉층 (Hidden Layer)

입력층과 출력층 사이의 모든 층이다. 외부에서 직접 보이지 않아서 "숨겨진(Hidden)" 층이라 부른다. 은닉층의 수와 각 층의 노드 수가 신경망의 표현력을 결정한다. 은닉층이 2개 이상이면 깊은 신경망(Deep Neural Network)이라 부른다.

각 은닉 노드는 이전 층의 모든 출력을 받아 가중합을 계산하고 활성화 함수를 적용한다. 이 과정에서 데이터의 복잡한 특징(feature)을 자동으로 추출한다.

③ 출력층 (Output Layer)

최종 예측값을 출력하는 층이다. 노드 수와 활성화 함수는 문제 유형에 따라 달라진다.

문제 유형	출력 노드 수	출력층 활성화 함수	출력값 해석
이진 분류	1개	시그모이드(Sigmoid)	양성 확률 (0~1)
다중 분류 (K개 클래스)	K개	소프트맥스(Softmax)	각 클래스 확률 (합=1)
회귀	1개	없음 (선형)	연속값 예측
다중 레이블 분류	K개	시그모이드 (각각)	각 레이블 독립 확률

4. 활성화 함수 (Activation Function)

왜 활성화 함수가 필요한가?

활성화 함수 없이 선형 변환만 반복하면 층이 아무리 많아도 결국 하나의 선형 변환이 된다.

W₂(W₁x + b₁) + b₂ = (W₂W₁)x + (W₂b₁ + b₂) = W'x + b'

두 개의 선형 변환을 쌓아도 결국 선형 변환 하나와 같다
→ 활성화 함수가 비선형성을 부여해야 복잡한 패턴 학습이 가능하다

주요 활성화 함수

① 시그모이드 (Sigmoid)

σ(z) = 1 / (1 + e^(−z))

출력 범위: (0, 1)

S자 곡선 형태. 출력을 0~1 사이로 압축해 확률로 해석 가능하다.

✅ 이진 분류 출력층, 게이트 메커니즘(LSTM)

⚠️ 기울기 소실 문제: z가 매우 크거나 작으면 기울기 ≈ 0 → 학습 중단

⚠️ 출력이 0 중심이 아님 → 기울기 방향이 일정해 학습 비효율

② 하이퍼볼릭 탄젠트 (tanh)

tanh(z) = (e^z − e^(−z)) / (e^z + e^(−z))

출력 범위: (−1, +1)

시그모이드를 −1~+1로 늘린 것. 0 중심이라 시그모이드보다 학습이 안정적이다.

✅ RNN/LSTM 은닉층, 시그모이드 대신 은닉층에 사용

⚠️ 기울기 소실 문제는 여전히 존재

③ ReLU (Rectified Linear Unit)

ReLU(z) = max(0, z)

출력 범위: [0, ∞)

z > 0이면 그대로, z ≤ 0이면 0을 출력한다. 계산이 매우 빠르고 기울기 소실 문제를 크게 줄인다. 현재 딥러닝에서 가장 많이 사용되는 활성화 함수.

✅ 대부분의 은닉층 기본값. CNN에서 특히 강력

⚠️ 죽은 ReLU: z ≤ 0인 노드는 기울기 = 0이 되어 영구히 비활성화될 수 있음

④ Leaky ReLU / ELU / PReLU

Leaky ReLU(z) = max(0.01z, z)

출력 범위: (−∞, ∞)

죽은 ReLU 문제를 해결하기 위해 z < 0 구간에도 작은 기울기를 허용한다.
ELU: z < 0에서 지수 함수 사용 → 더 부드러운 전환
PReLU: 음수 구간 기울기도 학습 파라미터로 설정

✅ 죽은 ReLU 문제가 발생할 때 대안으로 사용

⑤ 소프트맥스 (Softmax)

softmax(zⱼ) = e^(zⱼ) / Σₖ e^(zₖ)

출력 범위: (0, 1), 합 = 1

K개의 출력값을 확률 분포로 변환한다. 모든 출력의 합이 1이 되어 다중 분류의 확률 해석이 가능하다. 가장 큰 값을 가진 클래스가 예측 클래스.

✅ 다중 분류(Multi-class) 출력층 표준

⑥ GELU / Swish (최신 트렌드)

GELU(z) ≈ z · σ(1.702z)

출력 범위: (−∞, ∞)

ReLU의 단점을 보완한 최신 활성화 함수.
GELU: GPT, BERT 등 Transformer 모델의 표준
Swish: Google이 자동 탐색으로 발견, 일부 모델에서 ReLU보다 우수

✅ 대형 언어 모델(LLM), Transformer 기반 모델

5. 활성화 함수 선택 가이드

위치	권장 함수	이유
은닉층 (일반)	ReLU	빠르고 효과적, 기울기 소실 방지
은닉층 (ReLU 문제 시)	Leaky ReLU / ELU	죽은 ReLU 해결
은닉층 (Transformer)	GELU	대형 언어 모델 표준
출력층 (이진 분류)	Sigmoid	확률값 (0~1) 출력
출력층 (다중 분류)	Softmax	클래스별 확률, 합=1
출력층 (회귀)	없음 (선형)	연속값 그대로 출력
RNN/LSTM 내부	tanh / Sigmoid	게이트 구조에 맞는 범위

⚠️ 기울기 소실 문제 (Vanishing Gradient Problem)
층이 깊어질수록 역전파 시 기울기가 0에 가까워지는 현상이다.
Sigmoid와 tanh는 입력이 크거나 작으면 기울기가 거의 0이 된다.
이 기울기가 곱해지며 앞쪽 층으로 전달될수록 점점 작아져 학습이 멈춘다.
→ ReLU, 배치 정규화, 잔차 연결(ResNet) 등으로 해결한다.

📌 핵심 정리

인공 뉴런: 가중합(z = w·x + b) → 활성화 함수 f(z) → 출력
가중치 w: 각 입력의 중요도. 학습을 통해 조정됨
편향 b: 활성화 기준점. 역시 학습 파라미터
입력층: 데이터 수신, 노드 수 = 특성 수
은닉층: 특징 추출. 2층 이상이면 깊은 신경망(DNN)
출력층: 최종 예측. 문제 유형에 따라 노드 수·활성화 함수 결정
활성화 함수 필요 이유: 비선형성 부여. 없으면 아무리 깊어도 선형 모델
ReLU: 은닉층 기본값. 빠르고 기울기 소실 방지
Sigmoid: 이진 분류 출력층. 기울기 소실 주의
Softmax: 다중 분류 출력층. 클래스별 확률, 합=1
기울기 소실: 깊은 망에서 기울기가 0에 수렴 → ReLU로 완화

▶ 2편에서는 MLP, CNN, RNN/LSTM 등 모형 분류를 다룬다.

728x90

'수학&통계학' 카테고리의 다른 글

인공신경망 모형(ANN) (3) : 모형 학습 과정 (0)	2026.05.14
인공신경망 모형(ANN) (2) : 신경망 모형 분류 (0)	2026.05.14
앙상블 기법 (0)	2026.05.14
의사결정나무 (0)	2026.05.14
K-NN (0)	2026.05.14

구구 코스모스

인공신경망 모형(ANN) (1) : 뉴런, 층, 활성화 함수

1. 인공신경망이란?

2. 인공 뉴런(퍼셉트론)의 작동 원리