분류 전체보기(51)
-
Back-propagation 빠개기
역전파에서 활성화함수 미분하는거 상세히 체크하기
2020.04.13 -
soft argmax에 관한 의문점
Softmax 에서 밑을 exp로 쓰는 이유는? 그냥 일반 정규화로 해도 합이 1이되게 출력을 할 수 있고, 높은 확률은 더 높게 가중치를 주기 위한이유/ 미분했을때 편리한 이유라면 반대로 e^e^e^e^e^x로 하는것이 더 유리한것 아닌가?
2020.04.12 -
Cross-Entropy에 관한 의문점
1) Entropy (2진수) 2) About KL-Divergence 3) Cross-Entropy 공식유도 - Why?) Gradient Descent가 0으로 수렴해버릴 경우 학습이 거의 이루어지지 않기때문 - But, Batch Normalization써서 Sigmoid 미분 값이 0에 수렴하지 않는다면 rmse써도 상관없는 것 아닌가? --> rmse로 했을떈 다중분류에서 문제가 될 수있음 - 추가로, Sigmoid로 Activation 하지 않는다면 마찬가지로 Cross-Entropy로 안하고, 그냥 Softmax하고 rmse로 cost 구해도 되는거 아닌가? - 이 모든 전제가 Gradient Descent때문에 하는걸까? 추가로 이유가 또 있을까? - 결과 Label 값이 어느정도 선형적인..
2020.04.12