【论文笔记】Out-of-Distribution Detection using Combination of Feature Uncertainty and Mahalanobis

wufen_

已于 2024-02-18 16:29:28 修改

阅读量2.4k

点赞数 70

分类专栏：论文笔记 OOD检测文章标签：人工智能论文笔记

于 2024-02-18 15:00:00 首次发布

本文链接：https://blog.csdn.net/wufen_/article/details/136146418

版权

论文笔记同时被 2 个专栏收录

7 篇文章 1 订阅

订阅专栏

OOD检测

2 篇文章 0 订阅

订阅专栏

论文：Fine-Grained Out-of-Distribution Detection of Medical Images using Combination of Feature Uncertainty and Mahalanobis Distance

参考：Fine-Grained Out-of-Distribution Detection of Medical Images using Combination of Feature Uncertainty and Mahalanobis Distance

一、摘要

自动医学图像分类方法经常面临属于训练期间未见过的疾病类别的分布外（OOD）测试样本，并错误地将这些样本预测为训练数据集中的类别之一，即分布 (ID)类，导致输出不可靠。因此，检测 OOD 样本对于模型的可靠预测至关重要。为了解决这个问题，我们提出了一种简单而有效的方法，通过逻辑回归将测试样本的多尺度特征的不确定性以及测试样本与训练类在特征空间中的分布之间的马哈拉诺比斯距离结合起来。我们在包含五种细粒度肺部状况的数据集上评估了我们的方法，并设计了三种 ID-OOD 分割。三个分割的平均实验结果表明，我们的方法在检测医学图像中的 OOD 样本方面优于现有方法。

二、设计的三种OOD划分

三种划分的示例

第一种即不相关，第二种不同类型，本文主要使用第三种,即五种肺部疾病CT扫描的图像，具有相似性但不属于同一类。

三、模型架构

模型结合测试数据特征的不确定性以及测试数据和训练数据的Mahalanobis距离来获得该测试数据的OOD分数，进而判断其是否是OOD。

多尺度特征不确定性估计（Multi-scale Feature Uncertainty Estimation）

原理：由于模型（分类器，etc）在ID数据集上已经well-trained，所以即使丢失（dropout）一些中间的神经元仍然能对ID数据进行准确的分类，但对于OOD数据，模型没有学习有效的特征，所以会出现不确定的输出。

之前的工作采用的是对最终输出层的分类概率预测的不确定性，本文提出了在特征层面进行的不确定性计算。

公式为：

$[ U_l = -\sum_{i=1}^{K} \sum_{j=1}^{K} \frac{h_i \cdot h_j}{| h_i | | h_j |} ]$

这里的 $( U_l )$ 表示特征的不确定性， $( h_i )$ 和 $( h_j )$ 是特征向量，K 是向量的数量，点积 $( h_i \cdot h_j )$ 用于计算向量间的相似度，而 $( | h_i | )$ 和 $( | h_j | )$ 是向量的模长，用于归一化。公式通过所有特征向量的成对组合来计算总的不确定性。

多层马氏距离（Multi-layer Mahalanobis Distance）

只考虑不确定性对模型的训练方法和数据集的大小比较敏感，故添加一个马氏距离来观察测试数据与训练数据之间的距离，OOD数据与ID数据必然距离较远。

由于低级特征包含更详细的信息，例如边缘和纹理，而高级特征包含更多语义信息，因此在网络不同层的特征空间中测量MD对OOD检测可能有帮助。

计算公式为：

$[ M_l(x) = \min_c \left( (h_l(x) - \mu_{l,c})^T \Sigma_l^{-1} (h_l(x) - \mu_{l,c}) \right) ]$

其中，

$[ \mu_{l,c} = \frac{1}{N_c} \sum_{i:y_i=c} h_l(x_i) ]$

$[ \Sigma_l = \frac{1}{N} \sum_{i=1}^N (h_l(x_i) - \mu_l)(h_l(x_i) - \mu_l)^T ]$

在这些公式中， $( M_l(x) )$ 计算测试样本 ( x ) 在层 ( l ) 的特征与训练集中每个类别 ( c ) 的特征均值 $( \mu_{l,c} )$ 的马氏距离，并取这些距离中的最小值。 $( \mu_{l,c} )$ 是类别 ( c ) 中样本的特征均值，而 $( \Sigma_l )$ 是整个训练集在层 ( l ) 上的协方差矩阵。

OOD分数计算

使用验证集中的数据来训练一个逻辑斯蒂回归模型（原文表示如果验证集中没有OOD，就使用合成图像来进行训练，即可能会生成一些人工的、合成的图像来模拟OOD样本）

$[ S_{ood} = Sigmoid\left( \sum_{l=1}^{L} (\alpha_l U_l + \beta_l M_l) + \epsilon \right) ]$

$( \alpha_l )$ 和 $( \beta_l )$ 是通过验证集数据调整的权重参数，它们分别针对不确定性分数 $( U_l )$ 和马氏距离分数 $( M_l )$ 。 $( \epsilon )$ 是模型的偏差项。这个公式结合了不同层次的特征表示的不确定性和距离度量来预测一个样本是否是OOD。

四、实验结果

采用使用SimCLR预训练的Resnet50，每个瓶颈层添加0.2的dropout，使用SGD优化器

评估标准：the true negative rate (TNR) at 95% true positive rate (TPR), the area under the receiver operating characteristic curve (AUROC), the detection accuracy (DTACC) and the area under the precision-recall curve (AUPRC).