Medical VLP 论文学习记录(1.18已更新)

基本确定目前的研究方向是Medical VLP了,开此帖记录一下学习过程~

记录的都是我认为较为重要和有代表性的工作,需要精读的paper

如果没有其他安排,争取每天更新1-2篇阅读list,并后续总结为表格

一、Survey

1. 重磅推荐:Medical Vision Language Pretraining: A survey(2023.12)

论文地址:https://arxiv.org/abs/2312.06224

主要内容:从多个维度全面地调研了医学VLP的研究,分类方式较为新颖

本研究主要内容总结如下图:

2. CLIP in medical imaging: A comprehensive survey(2023.12)

论文地址:https://arxiv.org/pdf/2312.07353.pdf

主要内容:

1) CLIP预训练在医学领域的适应性,重点是如何根据医学图像和报告的特征来优化CLIP

2) CLIP 预训练模型在各种任务中的实际应用,包括分类、密集预测和跨模态任务

本研究主要内容总结如下图:

本文将CLIP在医学上的改进工作总结得比较全面,可见下表:

并且,作者根据每种方法提出的motivation(面对challenges),对部分方法作了梳理:

1)multi-scale feature

针对多尺度特征(multi-scale feature),即医学图像数据不止包含全局类别标签这种global-level feature,影像学报告的每一个句子往往描述图像中一种特定的局部特征,并且是在特定的区域内,即local- level feature。

针对以上问题,使用传统的CLIP会降低模态融合的效率,使性能降低。因此提出了GLoRIA,结合注意力机制计算语义对比损失,报告以word为单位,图像以sub-region为单位。

但GLoRIA存在以下limitations:

1- 报告中的每个单词重要性不同(如一些连词),方法将每个单词平等对待;

2- GLoRIA的优化过程是从文本报告出发,找到语义最相近的图像的sub-region,只考虑了文本-图像这一个方向的对比损失;

3- 该机制较难学习到图像和文本之间隐含的语义关系(没完全懂?)

2) 针对以上GLoRIA的不足,LoVT被提出。

主要有以下改进点:

1- 文本报告以sentence为单位而不是word,每个sentence对应一种图像的local-level的特征更加科学;

2- 文本-图像以及图像-文本两个方向的对比损失都有计算

二、基于CLIP的改进工作

1、MedCLIP: Contrastive Learning from Unpaired Medical Images and Text(2022)

论文地址:https://arxiv.org/abs/2210.10163

主要内容:

1) 解耦配对的图像和文本,使得未配对的样本数据也可以被充分利用;

2) 使用新提出的semantic matching loss代InfoNCE loss,解决对比学习中产生的false negatives

2、GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-efficient Medical Image Recognition(2021)

论文地址:https://openaccess.thecvf.com/content/ICCV2021/papers/Huang_GLoRIA_A_Multimodal_Global-Local_Representation_Learning_Framework_for_Label-Efficient_Medical_ICCV_2021_paper.pdf

3、MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training in Radiology(2023)

论文地址:https://arxiv.org/abs/2301.02228

4、Knowledge-enhanced visual-language pretraining on chest radiology images(2023)

论文地址:https://www.nature.com/articles/s41467-023-40260-7

三、训练上的改进工作

1、 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models(2023)

论文地址:https://arxiv.org/abs/2301.12597

  • 8
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值