视频学习
北京大学李夏的在线报告《语义分割中的自注意力机制和低秩重重建》
南开大学程明明教授的报告《图像语义分割前沿进展》
论文
CVPR 2019 《Selective Kernel Networks》
PDF:https://arxiv.org/pdf/1903.06586.pdf
code and models:https://github.com/implus/SKNet.
在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。
为了使神经元能够自适应地调整它们的RF大小,作者提出了一种自动选择操作,“Selective
Kernel“(SK)卷积,在不同核大小的多个核之间自适应核选择算法,以提高目标识别的效率和有效性。
作者通过Split、Fuse和Select三个算子实现SK卷积,如图1所示
Split
对于任何给定的feature map分别进行两个变换:
和
,其中每个变换依次为:grouped/depthwise convolutions, BatchNormalization, ReLU function;不同之处为卷积的卷积核大小不同,一个为 3 x 3 的卷积,另一个为 5 x 5 的卷积。
Fuse
首先通过元素求和来融合多个分支(图1中有两个)的结果:
对U做全局平均池化,得到通道的统计信息:
将得到的统计信息经过FC、BN、ReLU得到一个压缩的feature:
为了研究 d(全连接后的特征维数,即公式z或模型图中Z的特征维数) 对模型效率的影响,使用一个折减比 r 来控制其值
L是d最小值(在实验中取经典值32)
Select
计算来自各个路径的权重:
其中
与Split卷积后的特征进行乘和求和操作,
B矩阵是多余的,因为
CVPR 2020 《Strip Pooling: Rethinking Spatial Pooling for Scene Parsing》
PDF:https://arxiv.org/pdf/2003.13328v1.pdf
code: https://github.com/Andrew-Qibin/SPNet.
在这篇论文中,作者提出了一种新的空间池化操作——strip pooling.
Standard Spatial Average Pooling
标准空间平均池化在处理不规则形状对象时,因为池化核是N∗N的正规矩形区域,不可避免地会合并许多不相关的区域。
strip pooling
使用条带形状的池化窗口沿水平或垂直维度执行池化,即池化的kernel大小为1 ∗ H , W ∗ 1 。
Strip Pooling module(SPM)
利用水平和垂直的strip pooling操作从不同的空间维度收集远程上下文。
Mixed Pooling Module(MPM)
金字塔池化模块(PPM)是增强场景解析网络的有效方法。然而,PPM严重依赖于标准的空间池化操作(尽管在不同的金字塔级别使用不同的池化内核),这使得它仍然会有标准空间池化的问题。考虑到标准空间池化和strip pooling的优点,作者设计了混合池模块(MPM),该模块侧重于通过各种池化操作聚合不同类型的上下文信息,以使特征表示更具区别性。
MPM包含两个子模块:
图(a)为PPM模块,可以用于捕获特征位置的短距离依赖关系。
图(b)为SPM模块,可以用于捕获特征位置的长距离依赖关系。
MPM分别使用这两个分支生成对应的特征图,然后将两个子模块的输出拼接并用1x1卷积得到最终的输出特征。
CVPR 2019 《HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation》
PDF:
code:https://github.com/leoxiaobin/ deep-high-resolution-net.pytorch.
在本文中,作者从人体姿态估计问题中学习可靠的高分辨率表示。现有的大多数方法都是从高到低分辨率网络产生的低分辨率表示中恢复高分辨率表示来完成多尺度特征提取。作者提出的网络在整个过程中保持高分辨率的表示。
HRNet
从高分辨率子网开始作为第一阶段,将高到低分辨率子网逐个添加以形成更多阶段,并并行连接多分辨率子网。我们通过在整个过程中一遍又一遍地在并行多分辨率子网中交换信息来进行重复的多尺度融合。
相比现有的广泛的姿态估计网络,HRNet有两个优点:
(1)并行连接高分辨率与低分辨率网络,而不是像之前方法那样串行连接,因此能够保持高分辨率,而不是通过一个低到高的过程恢复分辨率,因此预测的heatmap可能在空间上更精确。
(2)HRNet融合相同深度和相似级别的低分辨率特征图来提高高分辨率的特征图的表示效果,并进行重复的多尺度融合,使得高分辨率表示也丰富的姿态估计。