모두를 위한 딥러닝 강좌 시즌 1 정리 (하) - lec 8 ~ 12
NN(Neural Network) K(X) = sigmoid(XW₁ + b1) H(X) = sigmoid(K(X)W₂ + b2) Back propagation 딥 네트워크에서 나온 결과물에서 나온 error(또는 cost)를 역으로 전파시키면서 weight들에게 그 것을 반영시키는 것. 미분과 chain rule을 이용하여 각 weight가 결과에 미치는 영향(변화량)을 계산하여 그 것만큼 반영시킨다. (Back propagation) Geoffrey Hinton's summary of findings up to today 1. Our labeled datasets were thousands of times too small. 2. Our computers were millions of times too slow. 3. We initialized the weights in a stupid way. 4. We used the wrong type of non-linearity. (Activate Functions) Vanishing gradient (NN winter2 : 1986-2006) 깊은 NN일 경우, back propagation이 진행되면서 점점 초반 부분의 layer들의 영향력이 작아지는 문제. sigmoid를 사용할 경우 이 문제가 크게 발생한다. ReLU등의 다른 activation functions을 사용하면서 어느정도 해결할 수 있다. Activation Functions 종류 : Sigmoid, tanh, ReLU, Leaky ReLU, Maxout, ELU, ... ReLU (Rectified Linear Unit) = max(H(x), 0) 비교 : https://hunkim.github.io/ml/lec10.pdf 24페이지 Initializing weights wisely - Not all 0's - challenging issue 비교 : https:/...