cs231n (2) 썸네일형 리스트형 CS231n 2017 Lecture 7 : Training Neural Networks II 오랜만에 본다. 저번 강의에서 다룬 normalization에 대한 첨언이다. 같은 classifier라도 data의 value가 크면, weight가 약간만 바뀌어도 classification 결과가 바뀔 수 있다. Normalization을 통해 model을 좀 덜 sensitive 하게 만들 수 있다. 오늘 배울 것들 SGD의 단점1 : Gradient에만 의존하기 때문에 상대적으로 완만한 방향으로는 진전이 느리고 경사가 급한 방향으로 많이 이동해서 지그재그로 경사면을 내려간다. 위 그림을 가로 축 w1, 세로 축 w2라고 생각하면, w1의 gradient가 w2의 gradient에 비해 많이 낮다. 이럴 때 condition number가 높다고 한다. 차원이 늘어나면 가장 낮은 gradient와.. CS231n 2017 Lecture 6 : Training Neural Networks I 이번 강의의 overview이다. 다양한 non-linear function에 대해 알아볼 것이다. Sigmoid는 위와 같이 생겼다. 3가지 문제점이 있는데, 1. 중심에서 멀어지면 gradient가 죽는다. 2. Output이 0~1이므로 zero-centered 되어 있지 않다. 3. exp() 함수가 비용이 크다. 1,3은 직관적으로 이해가 가는 부분이다. 그런데 zero-centered는 왜 문제가 되는걸까? 저기서 w1,w2,...wn의 local gradient가 x1,x2...xn이다. 그런데 x가 이전 layer의 sigmoid를 거쳐서 나온 값이라고 하면 x는 모두 양수이다. L = w1x1 + w2x2 ... 라고 하자. Chain rule을 적용할 때 L의 gradient와 w의 l.. 이전 1 다음