1、创新点
1、问题:卷积运算和循环运算都是处理局部邻域的构造,DCNN是通过重复的卷积操作得到长距离的相关性。缺点是计算效率低,其次优化困难
2、本文提出非局部操作,将某个位置的响应计算为所有位置特征的加权和。
目的是捕捉远距离的依赖关系。位置集可以是空间、时间、时空
non-local的优点:可计算任意两个位置的交互关系,可与其他操作融合
思想是来源是图像处理算法中的经典的滤波算法——非局部均值,通过计算图像中的所有像素的加权平均值
2、公式
I : 输出位置的索引(空间、时间、时空等)
j : 枚举所有可能位置的索引
x:输入信号
y:与x大小相同的输出信号
f:计算i和所有j之间的标量(表示关系affinitty)
g:计算位置j处输入信号的表示
c:归一化
non-local不同于fc,non-local是计算不同位置的关系响应,并且输入大小可变,并丢失空间信息。
3、实例化
作者列出了函数 f 和 g 的几个版本,发现对这些选择并不敏感。
1、函数g
只考虑线性嵌入形式的 g,wg 是要学习的权重矩阵,可用1*1卷积实现
2、考虑pairwise function f
1、高斯分布
2、Embedded Gaussian
简单扩展就是在嵌入空间中计算相似性
自注意力是Embedded Gaussian的一个特例
3、Dot product
𝑓𝐱𝑖,𝐱𝑗=𝜃𝐱𝑖𝑇𝜙𝐱𝑗
𝐶𝑥=𝑁
4、Concatenation
𝑓𝐱𝑖,𝐱𝑗=ReLU𝐰𝑓𝑇𝜃𝐱𝑖,𝜙𝐱𝑗
4、Non-local Block
yi就是刚才提到的,并且加上了残差连接
首先通过1*1卷积进行降维,减少计算量
在φ 和 g之后加上maxpooling
x 通过对x池化下采样减少计算量