【自监督学习】《 Representation Recovering for Self-Supervised Pre-training on Medical Images 》

刺猬240

已于 2023-12-26 14:40:18 修改

阅读量803

点赞数 18

文章标签：深度学习迁移学习计算机视觉

于 2023-12-26 14:37:44 首次发布

本文链接：https://blog.csdn.net/weixin_63219670/article/details/135221515

版权

医学影像自我监督预训练的表征恢复

Abstract

MAE主要恢复粗略的高层语义信息

在实验中发现MAE直接应用在下游任务（多器官分割）中并不理想，本文提出RepRec，这是一个混合的视觉表示学习的框架，用于大规模无标签医学数据集上进行自监督预训练，充分利用对比学习和生成建模的优势。为解决MAE遇到的问题，预训练了一个卷积编码器以对比的方式提供低层特征信息，并训练了一个Transformer编码器以生成的方式高层语义依赖，通过卷积编码器中恢复掩蔽表示

Introduction

在CV中，当前的SSL方法主要广泛应用于两个主要类别：生成建模和判别建模

Methodology

普通MAE恢复的原始图像。

Xq是锚样本,Xn是负样本，其中n≠q。为形成一个键样本，Xp，对锚样本进行弹性变换，随后使用卷积编码器

分别从Xq ，Xp,Xn提取三组特征图，fq,fp,fn。使用点击来衡量相似性，采用一种对比损失函数形式，称为InfoNCE：

对比学习预训练阶段的设计有两个目的，一是提供可学习得特征图，这些特征图将在后续的生成预训练阶段中用作输入，二是生成不同层级的特征图，这符合U-Net模型系列得常见设计。这些特征图将通过跳跃连接在后续的微调阶段维梯度提供替代路径

生成预训练：

直接恢复从卷积编码器中提取的可学习表示，与MAE相比，将特征图分成块而不是将图像分成块。

从查询嵌入fq中随机采样一部分补丁，按照均匀分布的方式选择，同时对其余的补丁进行掩蔽，形成遮蔽的查询嵌入fqm。为构建一个非平凡的预训练任务，采用高掩蔽比例进行随机采样以消除冗余。然后编码后的可见补丁和遮蔽标记通过VIT编码器

，进行编码，其中包括

个transformer块。之后编码后的可见patch和遮蔽标记被重新组合并由VIT解码器

进行解码，输出恢复的嵌入表示fqR.。

微调阶段：

使用有限的带有标签的

引入

作为新的卷积解码器，从恢复的表示中预测分割掩码。使用Dice损失函数来衡量预测分割掩码与真实标签之间的相似度。该函数计算了每个像素位置的预测概率和真实标签之间的差异，并将它们加权求和，以衡量预测的分割掩码与真实分割掩码之间的重叠程度。

在微调阶段将原有卷积编码器和VIT编码器与卷积解码器通过跳跃连接相连接。这样是为了提供梯度传播的替代路径以更好地训练整个模型

整个模型在微调阶段以端到端的方式进行训练，这意味着我们将输入图像通过编码器和解码器的网络流程，并计算损失函数，然后根据损失函数的梯度调整模型参数。通过反复迭代这个过程，模型会逐渐优化，使其在特定任务上的性能得到改善

Experiments

指标：

DSC衡量预测掩码mp和真实标签掩码mg之间的重叠程度

：预测掩码和真实标签掩码的并集的像素数目

：预测掩码的像素数目

：真实标签掩码的像素数目

定量结果：

5.2.1 ABD-110结果
表1显示了在ABD-110数据集上RepRec与先前工作的性能比较。我们运行了以下对比度自监督预训练算法：MoCo [26]、DenseCL [48]、Domain-Specific [4]；生成式自监督预训练算法：MAE [25]、MaskFeat [49]；以及对比度和生成式预训练的组合：SaGe [45]。我们还将其与随机初始化和ImageNet预训练（完全监督）初始化进行了比较。D

通过比较ABD-110数据集上的DSC分数，我们展示了在三个不同的训练集大小|T| = 1、10和50上RepRec的可扩展性。RepRec在ABD-110数据集上提供了50.31%、81.89%和84.67%的Dice分数。将MAE与随机初始化进行比较，预训练后仅获得了较小的改进：仅在给定1个标记的CT扫描时，仅改进了0.76%；在给定10个标记的CT扫描时，仅改进了3.29%；在给定50个标记的CT扫描时，仅改进了1.06%。这支持了我们在动机部分的论点。我们的RepRec方法在不同的微调集大小为1、10、50时分别获得了3.23%、7.57%、4.52%的改进。与完全监督的ImageNet预训练相比，RepRec分别提供了0.28%、1.42%和1.28%的改进。

5.2.2 Thorax-85结果
通过将Thorax-85数据集上的DSC分数与其他先进的预训练算法进行比较，我们展示了RepRec的优越性能，同时|T| = 1、10和50。RepRec在Thorax-85数据集上提供了53.97%、87.01%和90.37%的Dice分数。将MAE与随机初始化进行比较，预训练后仅获得了较小的改进：仅在给定1个标记的CT扫描时，仅改进了0.16%；在给定10个标记的CT扫描时，仅改进了1.61%；在给定50个标记的CT扫描时，仅改进了1.12%。这再次支持了我们在动机部分的论点。我们的RepRec方法在不同的微调集大小为1、10、50时分别获得了3.22%、2.28%、2.71%的改进。与Chaitanya等人[4]相比，当|T| = 1时，我们的方法优于他们0.93%；当|T| = 50时，我们的方法优于他们0.76%；而当|T| = 10时，[4]的DSC分数仅比我们高出0.03%。与完全监督的ImageNet预训练相比，RepRec分别提供了0.20%、1.27%和0.9%的改进。在Thorax-85上的实验证明，即使RepRec在腹部数据集上进行了预训练，其高度灵活的可迁移性使其能够与其他先进方法竞争。

5.2.3 HaN结果
通过在HaN数据集上进行微调，RepRec在|T| = 1、10和50时提供了41.99%、71.71%和77.92%的Dice分数。将MAE与随机初始化进行比较，预训练后获得了较小的改进：仅在给定1个标记的CT扫描时，仅改进了3.09%；在给定10个标记的CT扫描时，仅改进了11.13%；在给定50个标记的CT扫描时，仅改进了1.23%。这再次支持了我们在动机部分的论点。我们的RepRec方法在不同的微调集大小为1、10、50时分别获得了4.83%、15.77%、1.86%的改进。与Tian等人[45]相比，当|T| = 1时，我们的方法优于他们0.93%；当|T| = 10时，我们的方法优于他们1.47%；而当|T| = 50时，[45]的DSC分数仅比我们高出0.61%。与完全监督的ImageNet预训练相比，RepRec分别提供了1.25%、2.15%和0.47%的改进。在HaN和Thorax-85上的实验验证了，即使RepRec在腹部数据集上进行了预训练，它也可以迁移到人体其他部位的数据集上。

在图3中，我们展示了在ABD-110（第1行和第4行）、Thorax-85（第2行和第5行）和HaN（第3行和第6行）数据集上使用目标数据集大小|T| = 10训练的模型的可视化分割结果。由于表示恢复机制，与其他方法相比，RepRec展示了其有效性。

消融实验：

秋香色：小肠

浅绿色：肝

紫：肾脏

深绿/紫：肺

葡萄紫：脊髓

在 ABD-110 数据集上使用不同解码器的 RepRec 提供的 DSC 分数。所有结果都是在目标数据集大小 |T| =10。在相同的参数设置下，将我们的方法与之前的 SOTA 方法进行了比较。我们结果表明，在 ViT 解码器 Dt 的附加参数数量相同的情况下，RepRec 仍然达到了最先进的结果。

随着解码器Dc规模的增加，微调结果明显改善。首先，在表3中，作者通过增加解码器Dc的规模来改善微调结果。他们将U-Net解码器和PUP解码器（与简单的4个ViT和1个Conv解码器进行比较。结果显示，相比于前两种解码器，RepRec在下游分割任务中获得了2.1%和1.06%的性能改进。这表明在密集分割任务（如多器官分割）中，解码器相对于分类和目标检测任务仍然发挥着重要作用。

其次，作者在U-Net模型中添加了从卷积编码器Ec到卷积解码器Dc的跳跃连接。结果显示，随机初始化方法和RepRec的DSC分数分别提高了1.47%和1.82%。这表明在分割任务中，从编码器到解码器的跳跃连接对性能提升至关重要。然而，对于纯变换器模型（如MAE [25]），无法应用这样的跳跃连接结构，这导致了MAE在多器官分割任务上的性能下降。

总的来说，该文本强调了在图像分割任务中选择合适的解码器Dc对于性能的重要性。通过增加解码器规模和添加跳跃连接，可以显著改善分割任务的结果。然而，不同的解码器选择和结构对于不同的模型可能产生不同的影响，需要根据具体任务和模型进行选择和优化。

在图1中，我们展示了使用纯MAE模型在不同遮罩比例下的恢复结果。纯MAE模型在不同遮罩比例下提供了合理的恢复结果。然而，在微调阶段，表1中的实验结果显示，纯MAE模型对于密集建模任务（如多器官分割）并不具备潜在的可转移能力，即使该模型能够以合理的质量恢复原始图像。

简而言之，虽然纯MAE模型能够在不同遮罩比例下提供合理的恢复结果，但在细调阶段，它在密集建模任务（如多器官分割）中并不具备良好的迁移能力。这表明纯MAE模型在处理这种类型的任务时存在局限

刺猬240

关注

18
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
【自监督学习】《 Representation Recovering for Self-Supervised Pre-training on Medical Images 》

MAE主要恢复粗略的高层语义信息在实验中发现MAE直接应用在下游任务（多器官分割）中并不理想，本文提出RepRec，这是一个混合的视觉表示学习的框架，用于大规模无标签医学数据集上进行自监督预训练，充分利用对比学习和生成建模的优势。为解决MAE遇到的问题，预训练了一个卷积编码器以对比的方式提供低层特征信息，并训练了一个Transformer编码器以生成的方式高层语义依赖，通过卷积编码器中恢复掩蔽表示。
复制链接

扫一扫