Medical VLP 论文学习记录（1.18已更新）

Tiffany:)

已于 2024-01-18 10:52:15 修改

阅读量445

点赞数 8

文章标签：学习

于 2024-01-11 11:01:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54800645/article/details/135521735

版权

基本确定目前的研究方向是Medical VLP了，开此帖记录一下学习过程～

记录的都是我认为较为重要和有代表性的工作，需要精读的paper

如果没有其他安排，争取每天更新1-2篇阅读list，并后续总结为表格

一、Survey

1. 重磅推荐：Medical Vision Language Pretraining: A survey（2023.12）

论文地址：https://arxiv.org/abs/2312.06224

主要内容：从多个维度全面地调研了医学VLP的研究，分类方式较为新颖

本研究主要内容总结如下图：

2. CLIP in medical imaging: A comprehensive survey（2023.12）

论文地址：https://arxiv.org/pdf/2312.07353.pdf

主要内容：

1） CLIP预训练在医学领域的适应性，重点是如何根据医学图像和报告的特征来优化CLIP

2） CLIP 预训练模型在各种任务中的实际应用，包括分类、密集预测和跨模态任务

本研究主要内容总结如下图：

本文将CLIP在医学上的改进工作总结得比较全面，可见下表：

并且，作者根据每种方法提出的motivation（面对challenges），对部分方法作了梳理：

1）multi-scale feature

针对多尺度特征（multi-scale feature)，即医学图像数据不止包含全局类别标签这种global-level feature，影像学报告的每一个句子往往描述图像中一种特定的局部特征，并且是在特定的区域内，即local- level feature。

针对以上问题，使用传统的CLIP会降低模态融合的效率，使性能降低。因此提出了GLoRIA，结合注意力机制计算语义对比损失，报告以word为单位，图像以sub-region为单位。

但GLoRIA存在以下limitations：

1- 报告中的每个单词重要性不同（如一些连词），方法将每个单词平等对待；

2- GLoRIA的优化过程是从文本报告出发，找到语义最相近的图像的sub-region，只考虑了文本-图像这一个方向的对比损失；

3- 该机制较难学习到图像和文本之间隐含的语义关系（没完全懂？）

2）针对以上GLoRIA的不足，LoVT被提出。

主要有以下改进点：

1- 文本报告以sentence为单位而不是word，每个sentence对应一种图像的local-level的特征更加科学；

2- 文本-图像以及图像-文本两个方向的对比损失都有计算

二、基于CLIP的改进工作

1、MedCLIP: Contrastive Learning from Unpaired Medical Images and Text（2022）

论文地址：https://arxiv.org/abs/2210.10163

主要内容：

1）解耦配对的图像和文本，使得未配对的样本数据也可以被充分利用；

2）使用新提出的semantic matching loss代InfoNCE loss，解决对比学习中产生的false negatives

2、GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-efficient Medical Image Recognition（2021）

论文地址：https://openaccess.thecvf.com/content/ICCV2021/papers/Huang_GLoRIA_A_Multimodal_Global-Local_Representation_Learning_Framework_for_Label-Efficient_Medical_ICCV_2021_paper.pdf

3、MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training in Radiology（2023）

论文地址：https://arxiv.org/abs/2301.02228

4、Knowledge-enhanced visual-language pretraining on chest radiology images（2023）

论文地址：https://www.nature.com/articles/s41467-023-40260-7

三、训练上的改进工作

1、 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models（2023）

论文地址：https://arxiv.org/abs/2301.12597

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Medical VLP 论文学习记录（1.18已更新）

基本确定目前的研究方向是Medical VLP了，开此帖记录一下学习过程～
复制链接

扫一扫

Tiffany:) CSDN认证博客专家 CSDN认证企业博客

码龄4年

4: 原创

157万+: 周排名

17万+: 总排名

6150: 访问

: 等级

74: 积分

16: 粉丝

25: 获赞

9: 评论

41: 收藏

私信

关注

热门文章

分类专栏

Tiffany学习之路 1篇
开集识别 1篇

最新评论

HuggingFace加载模型失败的解决
Tiffany:): 您说的对
HuggingFace加载模型失败的解决
2301_77856496: 下载本地麻烦，不如用镜像
HuggingFace加载模型失败的解决
Tiffany:): 差不多是这个意思～参考你的源码
HuggingFace加载模型失败的解决
lzxjly: 是将creat_model函数换成auto_model函数的意思吗
HuggingFace加载模型失败的解决
CSDN-Ada助手: 恭喜你写了第四篇博客！解决HuggingFace加载模型失败的问题对很多人来说都是一大挑战，你的经验分享无疑会帮助到更多人。接下来，我建议你可以继续分享更多关于NLP模型加载、调试和优化的经验，或者尝试写一些与深度学习相关的实用技巧，让读者能够更好地应用在实际项目中。期待你的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。