【论文笔记】A knee cannot have lung disease: out-of-distribution detection with in-distribution voting

论文:A knee cannot have lung disease: out-of-distribution detection with in-distribution voting using the medical example of chest X-ray classification

参考:A knee cannot have lung disease: out-of-distribution detection with in-distribution voting using the medical example of chest X-ray classification

一、简介

采用分布内投票(in-distribution voting,IDV),评价指标为AUC(Area Under the Curve),与Mahalanobis-based OOD detection, MaxLogit, MaxEnergy and self-supervised OOD detection (SS OOD)这些模型进行比较。


二、Chest X-Ray Classification: CheXnet模型的训练处理

原始模型输出14个类别,现在添加第15个类别,即“no finding”,不属于14种中的任意一种,使用最后一类来判断是否是OOD。


三、In-Distribution Voting(IDV)分布内投票

方法:如果至少一个类别的预测超过了该类别的内分布阈值,则将样本分类为内分布。

与其他多标签OOD检测方法的区别:训练时将OOD数据放入(outlier exposure),同时将“no finding”也视为ID。

判断方式
no finding类超过阈值no finding类未超过阈值
前14个类至少有一个为真异常ID
前14个类全有一个为假ID

OOD

其判断方式可以粗浅的将no finding理解为健康,那么OOD情况即为既不健康又没有发现一直疾病的情况。


四、实验结果

分类任务评估
ROC评估

主要实验设置的所有 CXR14 类别的 ROC 曲线。正如我们的方法 IDV 所提出的,使用 OOD 数据进行训练对 CXR 分类没有明显的负面影响。相比之下,自我监督头训练(SS OOD)对分类产生了负面影响。所描述的 IDV 运行是使用 3088 个 OOD 图像(子集)进行训练的。

AUC评估

AUC 评估的 CXR14 分类性能。实验按平均 AUC 排序,最佳 AUC 以粗体突出显示。CheXnet 基线方法的平均 AUC 为 83%。我们提出的分布内投票 (IDV) 方法(使用少量 (3088) OOD 图像进行训练)对 CXR 分类没有明显负面影响,平均 AUC 范围从 82.4% 到 83.3%。然而,使用大于分布内数据集的 OOD 数据集进行训练将平均分类 AUC 降低了多达三个个百分点。此外,结合自监督头 (SS OOD) 对分类 AUC 有负面影响两个百分点。AUC = ROC曲线下的面积,OOD =分布外,CXR = Chest X射线。

OOD检测评估
CXR14 + IRMA、MURA、骨龄测试数据集的 OOD 检测的 ROC 曲线及其各自的 AUC

CXR 分类器 CheXnet 本身无法处理 OOD 数据,导致所有测试数据集的误报率为 100%。这意味着所有 OOD 图像都被基本模型归类为患有肺部疾病。使用自监督头 (SS OOD) 训练模型仅改善了 IRMA 数据集上的 OOD 检测 AUC,而没有改善 MURA 和骨龄上的 OOD 检测AUC。将模型的输出转换为 OOD 检测分数(MaxLogit、MaxEnergy)提高了所有三个数据集的 OOD AUC。使用特征空间中类均值的马哈拉诺比斯距离作为 OOD 信号,导致所有三个数据集的 AUC 均大于 97%。当使用 ImageNet 和 IRMA 数据进行训练时,我们提出的方法IDV 在所有三个数据集上表现最佳,平均 OOD 检测 AUC 为 99.9%。使用特定于领域的OOD 数据集 (IRMA) 进行训练比仅使用通用数据集 (ImageNet) 进行训练,并且使用包含特定于领域的 OOD 数据的多样化 OOD 数据集 (ImageNet + IRMA) 进行训练最好的。所有IDV 运行均使用可用 OOD 训练数据的子集(3088 个图像)进行训练,在 ImageNet +IRMA 的情况下使用 1044 个 ImageNet 和 1044 个 IRMA 图像。 ROC = 接收者操作特征、OOD = 分布外、AUC = ROC 曲线下面积、CXR = 胸部 X 射线、IDV = 分布内投票、CXR14 = 胸部 X 射线 14、IRMA = 医学图像检索应用程序数据集,MURA = 肌肉骨骼射线照片数据集。

添加OOD训练数据的影响
在三个 OOD 测试数据集上使用 IDV 运行的所有 OOD 检测的 ROC 曲线和AUC:IRMA、MURA 和骨龄以及 CXR14 分布数据。

使用了任意OOD训练数据的IDV OOD 检测提升了OOD 检测性能。一般来说,所有模型在仅包含手部 X 射线的骨龄数据集上表现最佳,而在包含各种 X 射线的 IRMA 数据集上表现最差。因此,在训练期间仅使用特定的骨龄数据所提高的 OOD 检测性能低于使用不同的 ImageNet 数据集(预计骨龄测试数据)。使用 ImageNet OOD 图像进行训练可提供强大的 OOD 检测性能,所有数据集上的 AUC 均大于 96%。此外,使用最多样化的数据集 ImageNet + IRMA 进行训练,仅使用 3088 个训练图像(子集),提供了整体最佳性能。


五、结论

研究表明,仅基于 ID 数据进行训练会导致错误的结果将 OOD 图像分类为 ID,导致误报率增加。结果表明,我们提出的方法 IDV 极大地改进了模型的 ID 分类性能,即使使用不会出现在预期用例中的数据进行训练或测试集。因此,我们的方法使最终模型更加稳健且显着提高其在现实环境中的预测性能。

  • 28
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值