这篇是经典的RCNN,用来处理object detection的。
先采用selective search的算法,找出2K左右的bounding box,经过一步warp,然后丢进CNN中,提取出4096的feature vector,再用200个SVM分别分类。
其中selective search使用fast mode,训练CNN采用了Supervised pre-training + Domain-specific fine-tuning的模式。分完类之后,还做了一步Bounding-box regression。input 是x,y,w,h,输出是groundtruth box。整个过程参数很多,需要注意。