5.20自适应融合笔记
- 围绕鲁棒性去思考;为什么鲁棒性差
- 各类数据的缺陷是什么
- 现在有两条思路:1.特征图的交叉:如何可以思考感受野,感受野上的互补,RCNN如何选框的,可以用同样的方法融合框,最主要是找到本质;2.数据源上的互补,RGB和PTS如何弥补,去阅读乱嗯
- 感受野的弥补可不可以改善框的回归问题
任务:1.学习感受野(完成);2.把融合论文读完;3.什么是金字塔
基于信道交换的深度多模态融合
aggregation-basedfusion,alignment-basedfusion, and the mixture of them
关键点:无参数、信道交换
使用BN中的scaling factor度量通道重要性,然后将0的通道用双模态均值代替
由于深度学习的成功,目前所指的多模态融合大多数都是基于端到端的神经网络。对于 现有的这些方法,按照如何进行多模态融合的方式,可以分为以下几种:基于聚合的融合方 式(aggregation-based fusion)和基于对齐的融合方式(alignment-based),以及将 两种方法进行结合的方式
- 基于对齐:这种融合方式只是相当于在原有单独模态优化目标的基础上,增加了一个正 则项,并没有显式地进行模态间的融合,因此跨模态的融合能力不强
L1正则化 对缩放因子强制执行'1norm惩罚,并明确删减满足稀疏准则的过滤器。在这里,我们将此思想作为一种自适应工具来确定在何处交换和融合
这里的BN针对的是某一模态-某一层-某一通道
?疑问简言之,如果一个模态的一个通道对最终预测的影响很小,那么我们就用其他模态的平均值来代替它。在将它们输入非线性激活之前,我们对每个模态应用方程6,然后在下一层进行卷积。梯度从被替换的通道分离,并通过新通道反向传播
某一通道对预测影响很小就有填补的必要吗,1.可能是数据缺陷,填补恰到好处‘2.也可能是本身就不重要,填补。而且更好的识别不在于重复在于互补;3.填补别的,什么别的,语义不变形?
感受野:当盯着某个点看的时候,只有该点是清晰的其他区域都是模糊的,只有眼球不停转动的时候才能连续看清不同的区域。特点:视野大,关注中点,需要转动。
定义:在深度卷积神经网络中,每个神经元节点都对应着输入图像的某个确定区域,仅该区域的图像内容能对相应神经元的激活产生影响。1.越靠近感受野的中心区域越重要,各向同性(距离感受野中心位置相等的区域重要程度一致),由中心向周围的重要性衰减速度可以通过网络结构控制。
神经网络感受野看到的图像有可能比原始图像还要大,因为神经网络中pad步骤进行了补0,所以多出来的是黑边(ResNet)
感受野如何计算:
- 可以改变感受野大小的操作:卷积层,池化层,反卷积操作(转置操作),残差连接(ResNet),合并连接
- 不可以改变:非线性激活,BN,GN
- 感受野大小和中心:感受野是逐层累积得到的;感受野的增速直接和卷积、步长累乘相关,想要网络快速达到某个感受野尺度可以让步长大于1的卷积核更靠前,还可以同时大大增加网络的推理速度,因为特征图分别率会迅速变小;中心计算公式也有
有效感受野:
- 概念:感受野(RF)中的每一个位置均会对相应神经元的激活产生影响,但并不是所有位置贡献都相等,这种位置歧视现象就是有效感受野(ERF)
- 有效感受野是神经网络的内在属性,当网络结构确定,有效感受野的相关特性级确定
- 即使感受野大小一样的情况下,因网络结构的不同,其有效感受野的特性也会有所不同
- 有效感受野中每个位置的重要程度是可以被计算的:数据驱动去描述/..每个感受野中位置的贡献画出来,比较像二元高斯
- 感不同数据受野间互相纠正?
- 参考文献: