object detection

1.yolo

2.RCNN

步骤:

1.采用selective search生成候选区域(region proposal)

2.将候选区域输入到一个预训练的网络(fine-tuning)

3.每个类别训练一个SVM分类器,用regressor对候选框进行回归

缺点:

时间和内存消耗太大,训练SVM和回归的时候都需要用网络生成的特征作为输入

3.Fast R-CNN

4.Faster R-CNN

faster r-cnn示意图
https://github.com/yhenon/keras-frcnn(deprecated)

https://github.com/softberries/keras-frcnn

https://github.com/small-yellow-duck/keras-frcnn

https://github.com/fizyr/keras-retinanet

vgg中,con3_64,表示卷积核为(3, 3),filters数目为64
vgg
SPP-net: spatial pyramid pooling ,空间金字塔池化层,放置在卷积层和全连接层之间,对特征图像进行压缩处理,避免了在进入卷积层之前要对图像进行截取(crop warp),卷积层对图像的尺寸没有限制,但全连接层对尺寸有限制。

bag of words: 词袋模型,常用于语言识别,句子是由多个关键词构成,通过关键词可以对句子进行表示。应用在图像识别中,整体图像可以由局部的图像组成。局部的图像组合在一起即为词袋,可以用于表示整体图像。

loss function

对两类anchors会打上正标签:(1)与实际(ground-truth)box的IoU(Intersection-over-Union)值最大,(2)与实际box的IoU值超过0.7
以第二个条件为依据可以满足大多数情况

如果IoU值低于0.3则为负标签

如果某个anchors即非正也非负,则不会作为训练对象

anchors

对于1000 x 600的图片,大概有20000(≈ 60 x 40 x 9)个anchors,9是3种纵横比,3种分辨率之积,60是1000/16,40是600/16,经过vgg后,图片会从(A,B,3)变为(A/16,B/16,512),详情见VGG-16

忽略掉跨过边界的anchors,每张图片还剩余6000个anchors,进过NMS(非最大抑制,阈值为0.7),剩余2000张候选区域(proposal regions)

5.Mask R-CNN

https://github.com/matterport/Mask_RCNN

案例
点击
点击

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值