医疗图像论文笔记一：《Comparison of Deep Learning Approaches for Multi-Label Chest X-Ray Classification》

最新推荐文章于 2023-04-18 16:26:32 发布

CVer_Yxq

最新推荐文章于 2023-04-18 16:26:32 发布

阅读量560

点赞数

分类专栏：医疗图像论文笔记文章标签：深度学习

本文链接：https://blog.csdn.net/yangxinquan123/article/details/108929933

版权

医疗图像论文笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

这篇论文探讨了深度学习在医学影像分析中的优化方法，包括使用预训练模型进行权重初始化、增大网络输入分辨率以及融合非图像特征。作者通过实验发现，预训练模型的迁移学习能显著提升模型性能，尤其是ResNet-50在高分辨率输入时表现最优。此外，结合患者年龄、性别和视图位置等信息可以进一步提高分类准确性。实验结果表明，专门针对医学影像训练的模型在精度和一致性上都表现出色。

摘要由CSDN通过智能技术生成

这篇论文做了三个方面的工作：

①使用不同的网络权重初始化（使用预训练模型和从零开始训练）

②分辨率较大的网络输入尺寸

③引入非图像特征（患者年龄、性别、视图位置信息）

（1）Weight Initialization and Transfer Learning

权重初始化有两种方法，第一种是随机初始化，从零开始训练网络。

第二种是使用预训练模型，将别的领域学习到的知识迁移到自身任务中。并且作者将迁移学习继续细分为两种方法，一种是 off-the-shelf(OTS),另一种是 fine-tuning(FT)。其中在OTS的方法中，预训练网络是作为一个特征提取器来提取图像特征，并且只对最后一个分类层进行权重调整；在FT的方法中，可以选择重新训练一个或多个网络层。

作者使用的是在ImageNet上预训练的Resnet-50的权重作为网络初始化，并且在重新训练所有的卷积层。

（2）Network Architecture

网络部分的改进，作者首先将网络的输入通道由原来的3通道改为1通道，考虑的是医疗图像为灰度图。其次是增加网络输入图像的分辨率，从224*224增大到448*448。为了保持模型结构与resnet的相似性，作者仅在第一个瓶颈层的后面加入一个最大池化层（3x3 kernel，stride 2，padding），而无其他的网络结构改变。

另外，作者还尝试了不同深度的Resnet模型，例如ResNet-38和Resnet-50。

（3）Non-Image Features

ChestX-ray14包含病患的年龄、性别、视图位置信息，放射学家在诊断病症的时候利用这些额外的信息比使用图像信息更多，例如，X光胸片的前视图和后视图的生成，取决于探测器与内脏的距离，而视图位置改变了X光胸片图像中器官的预期位置，因此可以提供额外的诊断信息。

作者通过将网络中最后一个池化层的图像特征（2024*1）与这些非图像特征（3*1）拼接起来，送入到全连接层进行分类。为了确保网络不会偏向于非图像特征信息，作者将非图像特征进行了归一化，均变为（0→1）。

为了进一步验证非图像信息有助于提升网络的分类准确率，作者做了一个实验来验证。首先训练一个简单的多层感知机分类器（Multi-layer Perceptron（MLP）classifier），将三个非图像信息（Age、Gender、View Position）作为输入。虽然训练出来的分类器的效果很低（AUC=0.61），但是依旧可以证明非图像信息有助于提升网络的分类准确率。

（4）Experiments and Results

作者考虑模型的泛化性能问题，采用了五次重采样的数据划分策略，每一次都将数据集划分为70%训练集，10%验证集和20%的测试集。通过估计所有重采样样本的平均验证损失，以确定最佳模型。最后，计算测试集上的精度取平均值。

在训练中，作者对图像进行区域采样，其大小在图像面积的8%到100%之间。纵横比均匀分布在3：4和4：3之间。对图像进行随机旋转±7◦和水平翻转。而在验证集合测试集上，作者将图像rescale到256*256和480*480大小，然后对图像进行去中心化处理，作为网络的输入。

优化器使用的是Adam，对于迁移学习的训练学习率设置为0.001，batchsize为16。对于从零开始训练网络，学习率设置为0.01，batchsize为8,。并且当验证集损失不再下降的时候，学习率减小两倍。

实验结果表明，在不包含非图像信息的训练中，FT能够提升模型平均精度（AUC：0.730→0.819），而使用CXR数据集对ResNet-50-1 channel进行训练能达到相似的性能。 而只有当ResNet-50-large在输入高分辨率图像时，其在平均AUC上才会优于FT方法 0.002。特别是对于较小的病理，如结节和肿块。而对于其他病理，分类性能相近或略低。

在包含非图像信息的训练中，从零开始训练的ResNet-50-large-meta取得了最好的性能 0.822。