본문 바로가기

논문 리뷰

(16)
CycleGAN 리뷰 논문 제목은 Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 이다. Contribution Image to image translation에서 unpaired data로도 좋은 결과를 냈다. 같은 연구실에서 발표한 pix2pix가 paired data를 가지고 좋은 성능을 냈지만, 실제로는 그런 data가 없는 경우가 많다. 모네의 을 pix2pix를 이용해 사진으로 바꿀 수 있을까? 그러려면 모네의 작품과 pair를 이루는 사진이 있어야 한다. 그 때는 카메라도 없었고, 저 배경과 인물들이 실제로 있었는지도 확실하지 않다. CycleGAN은 이런 상황에서 유용하다. 다시 말해 unpaired data로도 do..
Pix2pix 리뷰 논문 제목은 image-to-Image Translation with Conditional Adversarial Networks이다. Contribution 1. Image to image translation에서 general-purpose solution을 제시했다. 2. Conditional GAN을 image to image translation에 처음으로 적용해서 좋은 결과를 얻었다. 기존의 image to image translation에서는 application-specific하게 loss를 정의해야 했다. 이 논문에서는 GAN을 이용해서 사용자가 high-level의 요구사항(이 사진들과 비슷하게 만들어라)을 주면 discriminator와 generator가 동시에 학습하면서 그럴듯한 결..
Fast R-CNN 리뷰 Object detection에서 R-CNN, SPP-Net 다음으로 읽은 Fast R-CNN이다. 이름만 봐도 R-CNN의 속도를 개선한 모델이라는 것을 알 수 있다. Contribution 1. 빠르다. R-CNN은 물론이고 SPP-Net보다도 train은 3배, test시에 10배나 빠르다. 2. 그러면서 성능도 더 좋다. 3. Multi-task loss를 이용해 훈련 과정을 간소화했다. R-CNN, SPP-Net과의 비교 기존의 모델들은 multi-stage pipelines를 통해 train했다. 다시 말해, 1. 모델을 먼저 트레이닝 하고(이것도 여러 단계에 걸쳐서) 2. 그 뒤에 bounding box regression을 훈련했다. 이 논문에서는 위의 과정을 single-stage-tra..
SPPnet(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition) Fast R CNN이 영감을 받았다는 SPPnet이다. Kaiming He가 1저자로 있다. Contribution 1. Spatial pyramid pooling을 이용해서 다양한 size/scale의 input에 대해 fixed-length representation을 만들 수 있고, 그러므로 학습 시킬 수 있다. 2. CNN architecture를 가리지 않고 성능 향상이 가능하다. 3. Object detection에서 기존 R CNN과 비슷한 성능을 내면서 최대 100배 이상 빠르다. 기존의 CNN은 fixed input image size를 요구했다. 따라서 우리는 이미지를 crop하거나, warp할 수 밖에 없었다. 이미지를 crop하면 전체 이미지를 포함하지 못하는 문제가 발생하고, 이미..
R CNN(Rich feature hierarchies for accurate object detection and semantic segmentation) Object detection의 history에 감을 잡기 위해 손을 댄 논문이다. 이후에 r cnn을 개선해서 좋은 결과를 얻은 논문들이 많으므로 한 번은 읽어야 한다고 생각했다. Object detection은 지난 몇 년간 정체되어 있던 분야인데, r cnn이 VOC 2012에서 기존 방법들을 30% 이상 나은 성능으로 압도했다. Contribution -Object detection에도 딥러닝을 적용하면 잘 된다는 것을 보여줬다. -Data가 부족한 경우에 모델을 pre-training 한 후 사용할 domain에 맞게 fine tuning하는 방식을 선보였다. Input 이미지를 여러 개의 bounding box로 쪼갠다. 2000개의 region proposals를 CNN에 넣고 feature..
A Neural Algorithm of Artistic Style 구현 VGG-19는 이렇게 생겼다. tf.keras.applications.VGG19(include_top=False 한줄로 불러올 수 있다. style loss를 구하는 코드는 위와 같다. Correlation을 구하기 위해 filter output 행렬을 자기 자신의 전치행렬과 곱연산을 한 후 squared-error를 구한다. 총 5개의 error에 대해 0.2씩의 가중치를 곱한 후 더해 total style loss를 구한다. 논문을 읽으면서 궁금했던 점은 왜 제일 깊은 layer에서 content reconstruction을 하지 않는가 였다. 좋은 성능의 image classifier가 content를 잘 분리해내기 때문에 그 당시 논문에서 VGG를 가져다가 쓴 것인데, VGG의 성능을 완전히 사용..
A Neural Algorithm of Artistic Style Image의 content와 style을 이용해서 unique visual experiences를 만들어내는 것은 인간에게는 쉬운 일이지만 기계에게는 어려운 일이다. 이 논문에서는 image를 content와 style로 분리할 수 있고, 어떤 이미지에서 content를 분리한 후 다른 이미지의 style과 융합하면 화풍을 바꿀 수도 있다는 것을 보여주었다. Input image가 CNN 계층을 거치면서 결국에는 detailed pixel value 보다는 actual content를 인식하게 되는데, 이러한 특성을 이용하면 image에서 content를 분리해 낼 수 있다. CNN이 처음에는 부분적이고 단순한 feature를 인식하지만 깊게 들어갈 수록 더 복잡한 feature를 잡아내는 것을 이용한 ..
Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network Conference : CVPR Submisson : 2016 Paper Link : arxiv.org/abs/1609.05158 Keywords Single image super resolution Sub-pixel convolutional neural network Contribution LR 이미지를 upsampling 없이 바로 CNN에 넣어줌으로써 계산 비용을 줄였다. Learnable한 upscaling 방식을 사용해서 psnr을 높였다. SRCNN(Image Super-Resolution Using Deep Convolutional Networks) SRCNN은 super resolution에 딥러닝을 처음 적용시켜 좋은 결과를 얻었던 모델이다. 위와 같이 bicubic으로 키운 interp..