본문 바로가기

수업 정리(개인용)/cs231n

CS231n 2017 Lecture 1 : Introduction to Convolutional Neural Networks for Visual Recognition

Computer Vision에서 이름 있는 스탠포드 강의인 CS231n이다. 뜨거운 관심을 받고 있는데, 매 년마다 수강생이 두 배씩 는다고 한다.

 

 

Computer Vision의 중요성에 대해 이야기 하고 있다. Sensor, 즉 카메라 등이 많아지면서 visual data가 ridiculous하게 증가했다고 한다. 인터넷 트래픽의 80%가 video data라고 하니 엄청나다.

 

하지만 이런 데이터를 활용하는 것은 어려운데, 암흑 물질에 비유하고 있다. 암흑 물질도 우주의 85%를 차지하지만 우리 눈에 보이지 않는 것처럼 visual data를 활용하는 것도 여러 가지 난관이 있다.

 

Computer Vision이 굉장히 interdisciplinary 하다는 것을 보여주고 있다.

이제 vision과 computer vision의 역사를 살펴볼 것이다.

Fei Fei 교수가 바톤을 이어받아 vision의 등장과 함께 개체수가 폭발했다며 'Evolution's Big Bang'이라고 설명하고 있다.

 

고양이 뇌 실험을 통해 visual processing은 simple structure부터 시작된다는 것을 알아냈다.

 

David Marr가 생각한 3D 이미지를 얻는 방식. Primal Sketch에서 시작해서 점점 고차원으로 올라간다.

 

Object recognition이 너무 어려우니까 segmentation을 시도하게 되었다. 이 이미지가 사람이냐 아니냐 보다는 pixel들을 meaningful area로 나누는 것이 쉽다.

 

Computer Vision의 또 다른 분야 중 하나는 face detection이다. 2001년 Adaboost가 잘 해냈는데, 2006년 후지 필름이 얼굴 인식 디지털 카메라를 출시하면서, 기초 과학 연구가 실생활에 빠르게 전달된 예시라고 한다.

 

비록 이미지는 같은 사물이라도 여러 요인에 의해 변하지만, 불변하는 feature가 있을 것이고 그것을 통해 object recognition을 하겠다라는 아이디어가 feature extraction이다.

 

너무 유명한 ImageNet. 이걸 만든 이유는 1. Computer Vision에서 더 어려운 문제를 제시하기 위해서 2. Vision은 overfitting도 쉽고 더 많은 데이터가 필요해서 라고 한다. 140만개의 이미지를 classification 하는 challenge를 매년 여는데,

 

2012년 AlexNet이 등장하고 기존 SOTA들을 압도적으로 이겨버리고 만다. 그 이후로 Deep Learning 열풍이 불고, 2015년에는 기계가 사람보다 잘 하게 된다.

 

다시 Justin Johnson으로 돌아와서, cs231n은 image classification에 대해 다룰 것이며, 이것과 관련된 image recognition 문제는 무궁 무진하다며 예시를 보여주고 있다.

 

이제는 Computer Vision에서 빼놓을 수 없는 CNN. 하지만 1998년부터 있었던 알고리즘이다. 이제와서 잘 되는 이유는 1. Computing power의 증가, 2. Data의 증가 라고 한다.

강의 내용은 아니지만, 제프리 힌튼도 과거를 돌아보며 왜 딥러닝이 잘 안됐는지를 이렇게 얘기했었다.

 

Computer Vision은 많이 발전했지만 아직 갈 길이 멀고 활용 범위도 무궁무진하다는 이야기를 끝으로 Lecture1은 마무리 된다. 전반적인 강의 소개와 vision의 역사를 다뤘던 만큼 교양 수업처럼 흥미롭게 들었다. Lecture2부터는 본격적으로 image classification을 다룰 것이다.