MTLDesc: Looking Wider to Describe Better阅读笔记

本论文提出的想法:

1.自适应全局上下文增强模块:现有的局部特征描述符的提取大多数仅利用局部信息,而忽略了全局上下文信息,有的光照视角变化较大的场景或者是重复区域仅通过局部信息则会很难区分,所以提出了上下文增强的空间注意力机制(眼界更宽,描述更好)。

2.多样化局部上下文增强模块:将骨干网络提取的多个尺度的特征图经过插值到同一分辨率,进行拼接卷积,与自适应全局上下文增强模块提取的描述符融合然后将特征张量(描述符维度为128)分割成4部分描述符维度为32,分别在不同的描述空间中学习他们(不同卷积),然后再拼接。

3.门控地图:因为图中有些区域纹理比较明显,仅使用局部特征就能提取到很好的描述符,所以引入全局上下文增强模块可能会引入噪声,所以将骨干网络提取的最后一个特征图进行卷积和relu生成一个门控地图,与自适应全局上下文增强模块提取的描述符相乘,来控制哪些区域的全局上下文需要与局部上下文结合哪些区域不需要。

4.一致性注意力机制:这个是用来对描述符进行加权的,目的是通过一致的注意机制获取空间信息的认知和洞察力。i) 不同图像中相同区域具有一致的注意分数。ii) 代表性区域被赋予更高的注意分数,因为这些区域易于匹配到内点,同时也易于区分外点。ii) 具有高注意分数的区域的描述符首先进行优化。每个点的分数w与他对应的描述符向量d加权wd,也是通过将骨干网络提取的多个尺度的特征图经过插值到同一分辨率,进行拼接,在进行通道维度求平均,经过卷积核softplus生成一致性注意力机制得分图。

5.使用特征金字塔进行局部特征检测:将骨干网络提取的多个尺度的特征图经过插值到同一分辨率,然后分别通过各自的检测头,生成检测图,再通过他们各自的可训练的权重,加权融合到一起生成检测图,这样符合尺度空间理论,更好的检测。

Method

编码器网络

MTLDesc采用一个完全卷积的网络编码器作为局部特征描述和检测的共享主干。编码器由3*3的卷积层,RELU层和最大池化层组成,对于一张尺寸h*w的图像,经过四个顺序子编码器后得到了C1(h*w),C2(h/2*w/2),C3(h/4,w/4),C4(h/8,w/8)的特征图通道数分别是64,64,128,128.

1.带有上下文增强的局部描述符

(1)自适应全局上下文增强模块

通过自适应平均池化(自适应平均池化允许输入图像或特征图的大小变化,而输出的尺寸则保持固定。)将特征图C4转化为固定尺寸的特征图(64*64)作为模块的输入,然后分成16*16大小的图像块Xp,把Xp进行展平向量化256维向量,通过线性投影到128维,然后再添加上位置编码。

其中E是块嵌入的投影(256->128),Epos是位置嵌入,然后经过8个Transformer,每一次向量维度减少一半,所以最后输出reshape成4*4*128,这就是具有全局上下文的块描述符。

该模块的另一个分支预测一个门控地图,也是将通过自适应平均池化后的C4经过卷积输出到ReLU之后生成的门控地图,从上图可以看到门控地图的可视化,蓝色区域的值为0,其他区域的值为正值,它的作用是过滤掉全局上下文描述符后与局部描述符合并,因为有些特征比较明显的区域很容易就可以由局部特征计算出好的描述符,而再加上全局上下文的信息可能就会引入多余噪声。

(2)多样化局部上下文增强模块

特征点周围的局部描述符学习也非常重要,因为一个特征点的周围窗口包含了大部分这个点的描述信息。在这里的方法是把经过特征提取骨干网络提取出的4个特征图C1,C2,C3,C4插值或者下采样到同一分辨率,这里分辨率大小设置为(h/4,w/4),因为它在准确性和速度之间取得了良好的折衷。然后拼接在一起形成(h/4,w/4,384)

经过卷积形成(h/4,w/4,128),并且与处理过的自适应全局上下文模块的描述子进行融合(h/4,w/4,128)。为了获得多样化的周围上下文,所以把描述子张量进行解耦成四个(h/4,w/4,32)的张量,分别使用不同的卷积来提取特征(描述子),使用一个1*1的卷积核三个3*3的膨胀卷积(膨胀率分别为6,12,18),这样使得描述子能够获得多样化不同周围大小的信息,提升描述子质量,最后把解耦的四个张量再拼接成(h/4,w/4,128)与原始输入再进行融合就得到了最终的描述子张量D(h/4,w/4,128)。

2.具有一致注意权重的局部描述符

为了进一步提升局部描述符的限制,设计了一个一致的注意力机制获取空间信息,生成的一致注意力权重图有三种属性1.不同图像中相同区域具有一致的注意分数。2.代表性区域被赋予更高的注意分数,因为这些区域易于匹配到内点,同时也易于区分外点。3.具有高注意分数的区域的描述符首先进行优化。

(1)得分图W

还是上面把经过特征提取骨干网络提取出的4个特征图C1,C2,C3,C4插值拼接Ccat(h/4,w/4,384),进行通道维度平均得到(h/4,w/4)然后再经过3*3卷积+softplus来预测注意力图W(h/4,w/4)。

(2)一致注意力加权三元组损失

其实找到一个阈值,这个虽然是最近的但是也不是同一个点,

一致注意力加权三元组损失被定义为:

其中T是一个平滑因子。

从损失函数中可以看出当||x||+小而||x||-大的时候,损失小,效果好,所以反向传播时会把

这个对应的ω增大,而那些||x||+大而||x||-小的则效果不好,把他们对应的ω减小,这个梯度变换方向才使得损失函数降低,所以这就是代表性区域被赋予更高的注意分数

而这个损失函数会使得||x||+变小,所以相同区域的描述符d和ω都会变得很相似,这就对应了不同图像中相同区域具有一致的注意分数

然后由于ω增大,导致这个点在损失函数中的权重增大,所以对应了具有高注意分数的区域的描述符首先进行优化

本论文中的三元组损失相对于普通的三元组损失多了一个加权一致性注意力,而普通的三元组损失只是对描述子之间的角度进行正例负例的优化

匹配中的一致注意力:加权注意力的局部描述符也更适合匹配。不同图像中对应的区域具有相似的一致注意力分数,因此一致注意力可以作为局部描述符匹配的先验信息。显然,具有较高注意力分数的区域更有可能与另一图像中具有相同高分数的区域成功匹配。因此,加权描述符具有更小的匹配空间,并导致更高的匹配准确度。

3.使用特征金字塔进行局部特征检测

从上图可以看出设置了四个检测头,分别对应C1,C2,C3,C4,然后将检测出来的四个预测热图分别插值到图片尺寸大小h*w,并且设置了四个可以学习的权重用于融合不同尺度的预测热图以预测最中的关键点并计算损失。给定预测的热图K(h,w)和伪真实地面标签(h,w),检测器损失定义为加权的二元交叉熵损失:

其中权重λ 被经验性地设置为200。

其中g的值要么为0要么为1,当g为0时损失函数希望k小因为-log(1-k)就小,g为1的时候希望k大,因为-λglog(k)就小。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值