1网络整体结构
网络由两部分组成:孪生网络用于特征提取,区域生成网络(RPN)用于候选框的生成。RPN由两个分支组成,其中分类分支用于区分前景和背景,回归分支用于对候选框进行微调(平移缩放之类)使最终boundingbox更准确。(对照于目标检测中RPN的应用,先分类再微调)
2孪生特征提取子网络
孪生网络双分支分别提取模板图像(z)和当前检测图像(x),双分支共用参数,提取的特征表示为φ(z)、φ(x)。
3区域生成子网络
包含两个分支,前景-背景分类和区域生成。
RPN:生成候选框,分为两个部分,achor机制和bounding box regression
Achor机制:图像经过特征提取操作生成特征图,以图上每一个点作为中心点下锚,也就是生成矩形框,假设k个锚,就生成k种类型的框。
Bounding box regression:给每一个框都有一个评分,给每个点上最接近ground truth的框进行微调,(平移,或者调整框的大小,这通过一个线性回归模型实现)使这个框更接近真实框。
假设有k个锚点,分类输出2k个通道,回归需要输出4k个通道。因此网络通过卷积层将φ(z)增加成两个分支[φ(z)]cls和[φ(z)]reg分别用于分类和回归,并且通道数上是2k和4k倍。φ(x)也被分成两个分支[φ(x)]cls和[φ(x)]reg但通道数不变。
每个分支中[φ(z)]相当于[φ(x)]的卷积核,还是以群的形式,应该是对应通道的进行卷积
在Acls中的每个点是2k通道的向量,代表着在原图相应位置的正、负激活,同时也用softmax loss进行监督。同样的在Areg中每个点包含4k通道的向量,代表dx,dy,dw,dh,他们表示生成的锚与一个标准点的距离。
4 one-shot detection
对比两幅图可以看到,相当于孪生网络提取模板图像特征作为卷积核(相当于w的作用),回归就是通过提取的卷积核对当前待检测图像进行筛选,然后与标签比较,计算距离,最小化这个差距。模板分支被训练用于预测局部检测认务的卷积核。
5训练推理过程
训练阶段只需要成对的检测框
推理阶段除了第一帧的时候,只留下检测分支,能够保持快速(模板不变)