多视角数据的不确定性估计：全局观的力量

CanCanCanedFish

已于 2024-07-20 15:29:50 修改

阅读量773

点赞数 14

分类专栏：多模态情绪识别文章标签：人工智能深度学习神经网络

于 2024-07-20 15:29:22 首次发布

本文链接：https://blog.csdn.net/weixin_61681867/article/details/140571819

版权

多模态情绪识别专栏收录该内容

2 篇文章 0 订阅

订阅专栏

论文标题：Uncertainty Estimation for Multi-view Data: The Power of Seeing the Whole Picture

中文译名：多视角数据的不确定性估计:全局观的力量

原文地址：Uncertainty Estimation for Multi-view Data: The Power of Seeing the Whole Picture

OUTLINE

1.Introduction

2.Related Work

一、Introduction

1. 不确定性的意义

可靠的不确定性估计对于在医学影像诊断或自动驾驶等许多领域部署深度学习模型至关重要。即使有了准确的预测，领域专家仍然对模型的可信度提出质疑。例如，当模型的预测与领域专家的意见相矛盾时，模型预测的不确定性可以帮助确定模型的可靠性并证明模型的使用。

2. 关于SNGP

SNGP是一种提高深度分类器不确定性量化的简单方法，它能够保持模型的准确率和潜能。对于残差模型，SNGP只需对其进行2个修改：

1. 对隐藏的残差层使用光谱归一化

2. 使用高斯过程替换全连接输出层

SNGP的核心思想是，通过对网络进行一些简单的修改，提高深度分类器的距离感知能力。（距离感知是指，模型预测的概率值如何反映测试样本和训练数据的距离。SNGP使用一种简单的方法，将高斯过程行为添加到深度分类器中，且保持其预测的准确性。）

优点：

1. 它可以广泛应用于基于残差的结构，例如ResNet, DenseNet, BERT

2. 它是一种单模型方法，不依赖于多个代理的均值。因此，SNGP与单个基于结论的网络有相似的潜能，而且很容易scale到大的数据集上

3. 它有很强的域外检测能力（？），因为它有距离感知特点。

缺点：

1. SNGP预测结果的不确定性使用Laplace approximation计算，SNGP后验的不确定性与高斯过程不同。

2. SNGP训练时需要在每个世代开始前，需要对协方差进行清空。这给训练过程添加了一点复杂度。这一点可以使用keras的回调函数实现。

3. P.S.域外检测

对于分类，以二分类为例，假设给定了两个类目，训练出一个分类器，把数据映射到一个空间，能通过一条线把他们给区分开，如果样本落在线的一侧，则认为是正类，另一侧则是负类。简单到线性分类器、SVM之类的，复杂到各种深度学习，都类似于这个逻辑。

而所谓的域外检测，可以理解为，把正类样本尽可能映射到一个封闭的空间内，例如一个圈内，此时，处于这个圈内的就是正类，圈外的就是负类，此时圈外的内容不管来的是什么，模型见没见过都关系不大，因为圈内的模型是见过的，而且比较稳定。

所以所需关注的，无非就是这两个点：

1. 尽可能拿到覆盖面广且明确的样本，尤其是正样本，甚至有些这个领域的数据集已经直接干掉负样本，只给正样本了。

2. 有一个高效的表征和分类方案。
现有的研究大多就是这两个方向，而前者更倾向于业务和一些数据增强操作，发论文不是那么容易放的上台面，所以现在绝大部分论文在研究后者。

4. 关于MGP

在没有噪声视图的情况下，单峰模型可以在训练域附近产生准确和自信的预测。然而，对于噪声视图，即使接近训练域的样本，预测也变得不确定。现有的多视图分类器(例如TMC），检测域外(OOD)样本的能力同样有限。

为此，提出了多视图高斯过程(MGP)，这是一个定制的框架，为了多视图/模态内在不确定性估计。

具体来说，MGP由一个专门的高斯过程(GP)专家组成，每个视图的预测由专家积(PoE)汇总，通过在再现核希尔伯特空间(RKHS)中测量训练集和测试样本之间的距离来捕获不确定性。在处理噪声方面具有更强的鲁棒性和更好的OOD数据检测能力。

SNGP：https://f.daixianiu.cn/csdn/4891298843106058.html#%E4%BC%98%E7%82%B9

二、Related Work

1. Uncertainty Estimation with GP

GP的不确定性估计由于其对域移的高度敏感性而成为不确定性估计的金标准之一。

在深度学习模型中实现GP的常见方法之一：将GP置于提取特征的输出层之上。特征通常是从确定性深度神经网络、贝叶斯神经网络或图数据中提取的。

类似地，MGP建立在这些方法之上，并且可以与各种特征提取器结合使用。然而，与上述所有研究不同，这些研究是针对单峰数据设计的，但MGP是一个多视图GP。其他利用核学习进行不确定性估计的变体包括深度GP和RBF网络。

2. Multi-view Learning

多视图和多模式学习通过利用描述相同事件或对象的多个数据源来实现各种下游任务。（多个源：比如人物识别可以用脸、指纹等作为不同源的输入；多个特征子集：比如图像表示可以用颜色、文字等作为不同特征表述。）

尽管在多视角和多模态学习方面有着广泛的研究，但大多数研究并不主要针对不确定性估计。

3. P.S.协同训练

协同训练：多视角学习算法中的一种，是基于分歧的方法，其假设每个数据可以从不同的角度（view）进行分类，不同角度可以训练出不同的分类器，然后用这些从不同角度训练出来的分类器对无标签样本进行分类，再选出认为可信的无标签样本加入训练集中。由于这些分类器从不同角度训练出来的，可以形成一种互补，而提高分类精度；就如同从不同角度可以更好地理解事物一样。

典型相关分析CCA：https://blog.csdn.net/xq151750111/article/details/121618194