论文阅读笔记
1 贡献
-
基于Dirichlet分布建模不确定性:通过Dirichlet分布对类别概率进行建模,能够动态估计不同模态的不确定性,提高检测的可信度。
-
基于Dempster-Shafer 证据理论进行融合:相比传统概率加权,该方法能够更合理地融合多个模态的信息,并对不可靠的模态进行降权处理。
-
引入“即插即用”模态增强模块:该模块在不增加额外训练参数的情况下,提高模态之间的信息交互,提高检测准确度和鲁棒性。
2 主要模块
2.1 特征提取 Backbone
-
论文使用 VGG16 作为特征提取网络。
-
由于行人检测任务对局部细节信息要求较高,因此使用浅层卷积网络(VGG16)而非ResNet等深层网络。
-
对RGB和热成像分别使用独立的VGG16,以避免模态间干扰。
2.2 候选区域生成(Region Proposal Network, RPN)
-
采用Faster R-CNN的RPN,分别在RGB和热成像上提取候选行人区域(RoIs)。
-
论文使用 Non-Maximum Suppression (NMS) 处理RoIs,去除冗余区域:
RoIo=NMS(RoIc∪RoIt) -
这里,RoIc 是RGB通道的候选框,RoIt 是热成像通道的候选框,RoIo 是融合后的最终候选区域。
2.3 多分支RoI处理
每个RoI 经过三个分支:
-
RGB 分支(Color Branch)
-
处理RGB图像中的RoI区域,提取特征并进行分类回归。
-
-
热成像分支(Thermal Branch)
-
处理热成像中的RoI区域,提取特征并进行分类回归。
-
-
伪模态分支(Pseudo-modal Branch)
-
结合RGB和热成像信息,学习跨模态特征。
-
主要用于目标定位(Bounding Box Regression)。
-
所有分支输出的结果都不直接用于最终决策,而是先通过证据建模进行不确定性估计。
2.4 不确定性建模(Dirichlet 分布)
问题: 传统的Softmax可能导致过度自信的预测,难以处理模态干扰。
解决方案: 论文使用Dirichlet分布对每个类别的预测进行建模:
p∼Dir(α)
α 是Dirichlet分布的参数,表示模型对不同类别的置信度。
预测置信度 = 证据 (evidence) + 1:
𝛼𝑘=𝑒𝑘+1
S 是Dirichlet分布的强度参数,用于衡量模型的置信度与不确定性
计算置信度(belief mass):
b= e /S
计算不确定性(uncertainty mass):
u = K /S
高不确定性时,模型减少该模态的影响,提高整体检测可靠性。
2.5 证据融合(Dempster-Shafer 证据理论)
问题: 多模态融合时,传统的固定权重融合或者简单加权方法无法应对动态模态质量变化(如RGB受光照影响时)。
解决方案:
-
论文基于Dempster-Shafer 证据理论(DST)进行融合:
C:模态间冲突项。
特点:
-
当某个模态不可靠(高不确定性)时,融合结果会减少其贡献,避免错误检测。
-
当多个模态互相冲突时,模型会提高不确定性,降低错误决策的风险。
2.6 模态增强模块(Modal Enhancement Module)
实现方式:
计算模态差异:𝑅𝑑=𝑅𝑐−𝑅𝑡
通道注意力机制:计算全局平均池化(GAP),得到注意力权重 𝑤𝑑
通过tanh激活函数将值归一化到 [−1,1][−1,1]。
调整特征权重:𝑅𝑐′=𝑅𝑐+𝑤𝑑⋅𝑅𝑡
通过加权融合增强RGB分支的特征信息(热成像分支同理)。
优势:不需要额外训练参数,仅在推理阶段增强模态信息。增强RGB和热成像的互补信息,提高检测准确率。
3 实验
在 M R−2 (%) 指标下与 KAIST 数据集上最先进的方法进行比较。值越低越好