Posts List

[컴퓨터비전] 11. Object Detection

Object Detection

지난 포스팅에서는 Classification 문제를 살펴봤는데, 이번엔 이미지 내에서 object를 탐지(detecting)하는 문제에 대해 알아보도록 하자.

Object Detection 문제는 이미지에 어떤 Object가 있는지를 알아내는 것에서 끝나지 않고 어디에 위치해 있는지까지를 bounding box로 표현해 주는 것을 목표로 한다.

즉, CNN기법에 Region을 detection하는 알고리즘이고, 가장 초기의 Object Detection 문제를 풀기 위한 논문에서도 R-CNN (Regions with CNN features, Girshick, PAMI 2015 & CVPR 2014)이란 이름으로 발표됐다.

R-CNN에서는 이미지를 다양한 크기로 다양한 위치에서 조각낸 다음(Region proposal), CNN으로 feature를 추출하고, SVM으로 classification하는 구조를 가진다. 이 때 사용한 CNN은 ImageNet에서 딥러닝으로 첫 우승한 AlexNet을 Transfer learning시킨 것을 사용했다.

다만, R-CNN에서는 ① region proposal을 일종의 hand crafted rule을 이용해 이미지를 조각냈었고, ② SVM으로 분류를 했는데, 이 구조가 실제로 예측할 때 연산시간이 상당히 오래걸렸다. (1장 이미지 예측하는데 47초) 그래서 Girshick는 Fast R-CNN을 2015년에 ICCV에서 발표했다.

Fast R-CNN은 ②번 과정인 분류기능을 위해 기존의 SVM을 버리고 CNN으로 통합시킨 구조를 소개했다.

같은 해 Girshick는 NeurIPS에서 Fast R-CNN보다 더 빠른 Faster R-CNN을 발표하기에 이른다. Faster R-CNN은 지금까지 hand crafted rule에 의존했던 ①번(Region proposal) 과정까지 Region Proposal Net(RPN)이란 딥러닝 구조로 구현함으로써 획기적인 연산 속도 향상을 이루었다. 

특히 Faster R-CNN에서 anchor box들에 object를 잘 표현하고 있는지를 평가하는 objectness score를 적용해 보다 정확한 bounding box를 찾게한 것도 중요한 특징이다. (object가 있을 법한 box만 classification 모델에 입력한다.)

그 이후에도 Girshick는 Object detection 모델의 Real-time 구현을 위해 YoLo(You only Look once, 2015), SSD(Single Shot multibox detector, 2015)을 연달아 발표하며 Faster R-CNN보다 10배 이상 빠른 알고리즘들을 발표했다.

두 알고리즘의 특징은 이미지를 discrete한 grid로 나눠서 모든 grid를 classification함으로써 속도를 대폭 올렸다는 것이다.

※ 보다 자세한 내용은 [머신러닝/딥러닝 : Object Detection] 포스팅을 참고하자.





댓글 쓰기

0 댓글