基本确定目前的研究方向是Medical VLP了,开此帖记录一下学习过程~
记录的都是我认为较为重要和有代表性的工作,需要精读的paper
如果没有其他安排,争取每天更新1-2篇阅读list,并后续总结为表格
一、Survey
1. 重磅推荐:Medical Vision Language Pretraining: A survey(2023.12)
论文地址:https://arxiv.org/abs/2312.06224
主要内容:从多个维度全面地调研了医学VLP的研究,分类方式较为新颖
本研究主要内容总结如下图:
2. CLIP in medical imaging: A comprehensive survey(2023.12)
论文地址:https://arxiv.org/pdf/2312.07353.pdf
主要内容:
1) CLIP预训练在医学领域的适应性,重点是如何根据医学图像和报告的特征来优化CLIP
2) CLIP 预训练模型在各种任务中的实际应用,包括分类、密集预测和跨模态任务
本研究主要内容总结如下图:
本文将CLIP在医学上的改进工作总结得比较全面,可见下表:
并且,作者根据每种方法提出的motivation(面对challenges),对部分方法作了梳理:
1)multi-scale feature
针对多尺度特征(multi-scale feature),即医学图像数据不止包含全局类别标签这种global-level feature,影像学报告的每一个句子往往描述图像中一种特定的局部特征,并且是在特定的区域内,即local- level feature。
针对以上问题,使用传统的CLIP会降低模态融合的效率,使性能降低。因此提出了GLoRIA,结合注意力机制计算语义对比损失,报告以word为单位,图像以sub-region为单位。
但GLoRIA存在以下limitations:
1- 报告中的每个单词重要性不同(如一些连词),方法将每个单词平等对待;
2- GLoRIA的优化过程是从文本报告出发,找到语义最相近的图像的sub-region,只考虑了文本-图像这一个方向的对比损失;
3- 该机制较难学习到图像和文本之间隐含的语义关系(没完全懂?)
2) 针对以上GLoRIA的不足,LoVT被提出。
主要有以下改进点:
1- 文本报告以sentence为单位而不是word,每个sentence对应一种图像的local-level的特征更加科学;
2- 文本-图像以及图像-文本两个方向的对比损失都有计算
二、基于CLIP的改进工作
1、MedCLIP: Contrastive Learning from Unpaired Medical Images and Text(2022)
论文地址:https://arxiv.org/abs/2210.10163
主要内容:
1) 解耦配对的图像和文本,使得未配对的样本数据也可以被充分利用;
2) 使用新提出的semantic matching loss代InfoNCE loss,解决对比学习中产生的false negatives
2、GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-efficient Medical Image Recognition(2021)
3、MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training in Radiology(2023)
论文地址:https://arxiv.org/abs/2301.02228
4、Knowledge-enhanced visual-language pretraining on chest radiology images(2023)
论文地址:https://www.nature.com/articles/s41467-023-40260-7