探测任务就是找出图片中有几个目标,用bounding box把他们圈起来,并给出他们的类别
发展历程
overFeat -》R-CNN-》Faster R-CNN-》Yolo(v1,v2,v3),具有实用价值的只有R-CNN和YOLO,下面简单说说他们
R-CNN
工作流:图片--SS--CNN分类网络---类别预测--边框回归--逐类NMS
缺点:每张图片必须缓存2000个4096维向量
改进:Faster-RCNN,直接在feature map上滑窗,不用缓存,用RPN代替SS
YOLO
特点:端到端,分而治之,标注一个向量长度为n+5的一维向量[Pc;bx,by;bw;bh;c1,c2;...;cn]
工作流:图片--划分图像(like 3*3)--CNN网络--每个网格为3*3*(n+5)--与标注作差得Loss