目标跟踪SiamRPN阅读笔记

1网络整体结构

网络由两部分组成:孪生网络用于特征提取,区域生成网络(RPN)用于候选框的生成。RPN由两个分支组成,其中分类分支用于区分前景和背景,回归分支用于对候选框进行微调(平移缩放之类)使最终boundingbox更准确。(对照于目标检测中RPN的应用,先分类再微调)

2孪生特征提取子网络

孪生网络双分支分别提取模板图像(z)和当前检测图像(x),双分支共用参数,提取的特征表示为φ(z)、φ(x)。

3区域生成子网络

包含两个分支,前景-背景分类和区域生成。

RPN:生成候选框,分为两个部分,achor机制和bounding box regression

Achor机制:图像经过特征提取操作生成特征图,以图上每一个点作为中心点下锚,也就是生成矩形框,假设k个锚,就生成k种类型的框。

Bounding box regression:给每一个框都有一个评分,给每个点上最接近ground truth的框进行微调,(平移,或者调整框的大小,这通过一个线性回归模型实现)使这个框更接近真实框。

假设有k个锚点,分类输出2k个通道,回归需要输出4k个通道。因此网络通过卷积层将φ(z)增加成两个分支[φ(z)]cls和[φ(z)]reg分别用于分类和回归,并且通道数上是2k和4k倍。φ(x)也被分成两个分支[φ(x)]cls和[φ(x)]reg但通道数不变。

每个分支中[φ(z)]相当于[φ(x)]的卷积核,还是以群的形式,应该是对应通道的进行卷积

在Acls中的每个点是2k通道的向量,代表着在原图相应位置的正、负激活,同时也用softmax loss进行监督。同样的在Areg中每个点包含4k通道的向量,代表dx,dy,dw,dh,他们表示生成的锚与一个标准点的距离。

4 one-shot detection

对比两幅图可以看到,相当于孪生网络提取模板图像特征作为卷积核(相当于w的作用),回归就是通过提取的卷积核对当前待检测图像进行筛选,然后与标签比较,计算距离,最小化这个差距。模板分支被训练用于预测局部检测认务的卷积核。

5训练推理过程

训练阶段只需要成对的检测框

推理阶段除了第一帧的时候,只留下检测分支,能够保持快速(模板不变)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值