이 블로그는 개인의 공부 목적으로 작성된 블로그입니다. 왜곡된 정보가 포함되어 있을 수 있습니다.
이전 포스팅에서 이어집니다~
1. Vanishing Gradient Problem
이전 포스팅에서는 역전파 알고리즘을 통해 기울기값을 조정한다는 것을 알아봤다.
그런데 미분하는데 발생하는 문제가 있는데 우리는 일반적으로 활성화 함수로 시그모이드 함수를 사용한다.
시그모이드 함수를 미분하면
$sigmoid(x)=\frac{1}{1+e^{-1}}$ 에서
$frac{d}{dx}sigmoid(x)=\frac{e^{-x}}{(1+e^{-x})^2}$
$=\frac{1}{1+e^{-x}}(1-\frac{1}{1+e^{-x}})$
$=sigmoid(x)(1-sigmoid(x))$ 이다.
이때 $0<sigmoid(x)<1$으로 $0<sigmoid(x)(1-sigmoid(x))<1$ 이다.
따라서 미분값 하면서 점점 미분값이 $0$에 수렴하게된다.
이는 노드들이 주는 영향이 점점 감소하게 되는것이고, 경사하강법에서 기울기가 감소하여 결국 변경할 기울기가 사라지는 현상을 말한다
2. Relu
$Relu(x)=max(0,x)$ 으로 vanishing gradient problem을 해결함
마지막 층을 제외한 층에서 활성화 함수로 사용
$0$ 이하의 경우 모두$0$을 가지기 때문에 Leaky Relu, Ramdomized Leaky Relu 와 같이 변형된 활성화 함수도 등장하였음
3. Regularization
4.Dropout
학습과정중에 지정된 비율만큼 간선을 끊어 성능을 개선하는 현상(기존 것 보다 일반화 능력 상승)
'AI > 기계학습' 카테고리의 다른 글
[기계학습] CNN(Convolutional Network) (1) | 2023.12.09 |
---|---|
[기계학습] Artificial Neural Network 1 (1) | 2023.11.27 |