Faster rcnn源码理解(3)

紧接着之前的博客,我们继续来看faster rcnn中的AnchorTargetLayer层:

该层定义在lib>rpn>中,见该层定义:

首先说一下这一层的目的是输出在特征图上所有点的anchors(经过二分类和回归)

(1)输入blob:bottom[0]储存特征图信息,bottom[1]储存gt框坐标,bottom[2]储存im_info信息;

(2)输出blob:top[0]存储anchors的label值(fg是1,bg是0,-1类不关心),top[1]存储的是生成的anchors的回归偏移量,即论文中的tx,ty,tw,th四个量(所以说整个faster rcnn总共两次bbox回归,第一次在RPN中,第二次在fast rcnn中),top[2]和top[3]分别存储的是bbox_inside_weights和bbox_outside_weights,这两者的具体形式后面再说,作用还不是很清楚;

好的,先进入层的setup函数:

该函数通过解析父类对自己的一些参数进行初始化,同时定义该层的输入输出blob;

该函数中要注意的是generate_anchors()函数,它的作用是产生对应与特征图上最左上角那个点的九种anchor(尺寸对应与输入图像),这9个anchor在后面被用来产生所有图像上的anchors,进入generate_anchors()函数:

 

三种长宽比(0.5,1,2)和三种参考尺寸(128,256,512)形成了九种anchors(注意这里只是参考尺寸,是用来计算anchors尺寸时用到的三种规格,并不是说anchors的规格就是这三种);

接着向下看该层的前向传播函数forward函数:

 

这里获得输入bottom[0]、bottom[1]、bottom[2],继续:

这里的shift_x和shift_y分别对应x和y轴上的偏移量,用在之前说过的用generate_anchors()函数生成的最左上角的anchors上,对其进行偏移,从而获得所有图像上的anchors;all_anchors用来存储所有这些anchors,total_anchors用来存储这些anchors的数量K×A,其中,K是输入图像的num,A是一幅图像上anchor的num;之后作者还对这些anchors进行了筛选,超出图像边界的anchors都将其丢弃~继续:

这一部分主要就是获得这些anchors和对应gt的最大重叠率的情况,以及正样本的划分标准:a.对于每一个gt,重叠率最大的那个anchor为fg;b,对于每一个gt,最大重叠率大于0.7的为fg;

cfg.TRAIN.RPN_CLOBBER_POSITIVE则涉及到一种情况,即如果最大重叠率小于cfg.TRAIN.RPN_NEGATIVE_OVERLAP=0.3,则到底正还是负,这里的cfg.TRAIN.RPN_CLOBBER_POSITIVE默认是False;

继续:

这一部分是说,如果我们得到的正样本或者负样本太多的话,那么就选取一定数量的,丢弃一定数量的anchors,应该是为了加速(这里的选取方法也很直接,就是随机选取),继续:

这一部分是生成bbox_targets、bbox_inside_weights、bbox_inside_weights;其中对于bbox_targets,它这里是调用了_compute_targets()函数,见:

在该函数又接着调用了bbox_transform函数,见:

从而得到了论文中所需要的四个偏移量tx,ty,tw,th四个量;

而对于后两个bbox_inside_weights和bbox_outside_weights,函数中定义的是bbox_inside_weights初始化为n×4的0数组,然后其中正样本的坐标的权值均为1;而bbox_outside_weights同样的初始化,其中正样本和负样本都被赋值1/num(anchors的数量),还有另一种非统一的赋值方式在else中,这里就不说了;继续:

这里则是通过_unmap()函数实现将之前在所有图像上产生的anchors都赋上label、bbox_targets、bbox_inside_weights、bbox_outside_weights属性,见该函数:

之后会把这些属性信息经过reshape封装进该网络层的输出blob,即top[0]、top[1]、top[2]、top[3]中;之后:

由于该层不需要反向传播,所以backward函数也不需要写了,在前向传播中已经reshape了,就不用再写reshape函数了~

 好了,到此,AnchorTargetLayer层的定义就写到这儿,若有错误请指出~

http://www.cnblogs.com/zf-blog/p/7307502.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Fast R-CNN(Region-based Convolutional Neural Networks)是一种目标检测算法,而Faster R-CNN是Fast R-CNN的改进版本。Fast R-CNN基于区域建议网络(Region Proposal Network,RPN)生成候选区域,通过提取候选区域特征并送入全连接层进行目标分类和边界框回归。 而Faster R-CNN进一步改进了区域建议网络,将其整合到模型中,从而实现端到端的目标检测。Faster R-CNN的主要创新点是引入了RPN网络,使得检测和提取候选区域的过程能够在训练和测试过程中共享卷积特征,大大提高了检测速度。 Faster R-CNN源码主要包含以下几个部分: 1. 基础模型部分:包括了卷积层、池化层等用于特征提取的网络结构。 2. 区域建议网络(RPN)部分:构建一个小型的神经网络,对于输入图像中的每个位置生成多个候选框,同时输出每个候选框属于目标的概率。 3. 快速区域卷积神经网络(Fast R-CNN)部分:通过共享卷积特征,对RPN输出的候选框进行特征提取,并送入全连接层进行目标分类和边界框回归。 4. 损失函数:用于训练网络的损失函数,主要包括用于划分候选框是否包含目标的分类损失和用于对边界框回归的回归损失。 Faster R-CNN的源码实现通常使用深度学习框架,如PyTorch或TensorFlow。在源码中,会包含网络结构的定义、损失函数的定义、数据加载与处理、训练过程以及测试过程等。 总之,Faster R-CNN源码实现了一种端到端的目标检测算法,通过整合区域建议网络和快速区域卷积神经网络,实现了高效准确的目标检测任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值