【论文笔记】MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training

最新推荐文章于 2024-09-14 20:22:29 发布

wufen_

最新推荐文章于 2024-09-14 20:22:29 发布

阅读量1k

点赞数 18

分类专栏：论文笔记文章标签：论文阅读人工智能

本文链接：https://blog.csdn.net/wufen_/article/details/137027670

版权

论文笔记专栏收录该内容

7 篇文章 1 订阅

订阅专栏

论文：MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training

目标

$s_i$ 是指患者推断出具有特定疾病的可能性，由输入描述指示

$m_i$ 表示预测的空间热图，对可能为此类疾病提供视觉指示的像素进行高度激活。

模型架构

视觉编码

我们采用标准的ResNet-50作为视觉骨干，取第4个剩余块的输出

知识增强语言编码

该模块的目标是通过结合医学领域知识从文本报告中提取有用信息。

Report Filtering

具体来说，给定一个带有一组句子的报告 T，T = {s1, s2,…, sM }，过滤器独立地对每个句子进行操作，并从报告中构建许多三元组，提取的实体（大多数是疾病）、空间位置和指示疾病存在的标签：

Entity Encoding 实体编码

过从医学目的知识库查询详细的视觉描述来替换实体，例如“肺炎”→“它是肺的条件，主要影响被称为肺泡的小空气囊。它可能存在不透明度和胸腔积液，可以提高肺固结的诊断准确性”。尽管它很简单，但将实体转换为描述对于更可靠和开放词汇的诊断至关重要，因为它进一步将医学实体分解为不同疾病共享的视觉属性，鼓励模型捕捉对视觉证据的深入理解。

Discussion

首先，医疗报告中的信息往往更加浓缩，通常描述图像中异常的存在及其位置，因此，采用过滤器操作可以避免语法不必要的复杂性，同时仍然保留报告中的大部分有用信息。其次，实体往往是医学术语，只有医学背景的观众才能理解，通过视觉描述丰富编码可以极大地帮助模型捕捉对疾病视觉证据的深入理解，特别是对于所见疾病，这种共享的视觉属性能够构建隐式关系，而对于看不见的疾病，它们的视觉证据可能已经通过处理可见疾病的描述来很好地理解，因为它们往往在疾病之间共享。

Fusion Module

实体集 Q = {e1, e2,…, e|Q|}，位置集 P = {p1, p2,…, p|P |}，对于某个图像，其计算的视觉表示和实体集将被传递到融合模块进行对齐，该模块由多个 Transformer Decoder 层组成。我们将实体集 Q 视为 Query，将图像特征 V 视为 Transformer 解码器中的 Key 和 Value，融合模块的输出进一步馈送到两个线性 MLP 层，一个用于推断实体的存在，另一个生成嵌入来指示实体的空间位置

与将报告与整个图像对齐的现有方法相比，采用的Transformer解码器能够在patch级别计算文本和图像之间的对应关系。因此，图像特征 V 更适合下游分割任务，每一层的交叉注意力图的平均值可以直接用于零样本接地。

training

训练时，为了监督每个实体查询的位置预测，我们采用对比学习，从位置集中随机采样M个位置嵌入

其中 〈·, ·〉 表示两个向量的内积，I(·,·) 是随机索引采样函数。

实验

Pre-training Dataset

MIMIC-CXR v2 包含超过 227k 对配对图像报告数据的研究，它们来自不同扫描的 65,379 名患者。每项研究可以有一个或两个图像（不同的扫描视图），总计 377,110 张图像。

Datasets for Downstream Tasks 下游任务数据集

ChestX-ray14、RSNA Pneumonia、SIIM-ACR Pneumothorax 、COVIDx CXR-2 and COVID Rural 、Edema Severity

评价指标

AUC、F1 and ACC、Pointing Game、Dice and IOU、Precision and Recall

实验结果

零样本任务（zero shot）

通过引入医学知识，可以理解训练集中看不见的复杂医学实体描述，并在 AUC 上显着提高了 0.66 到 0.74，在 ACC 上显着提高了 0.59 到 0.70 的性能。

Fine-tuning

Conclusion

在本文中，我们引入了一种新的医学知识增强VLP模型。首先，我们提出了一个报告过滤器来提取具有更有用监督信号的有用医学实体，以最小的信息丢失简化了复杂的原始报告。其次，我们将实体翻译成详细的医学描述，并将它们与文本编码器嵌入，使网络能够理解复杂的医学专家级知识。最后，提出了一种基于变压器的结构来进行局部区域对齐。在实验中，我们在不同设置下的不同数据集上评估我们的方法。我们的方法显示出强大的零样本分类和接地能力，甚至面临看不见的疾病。此外，在微调设置中，我们的方法仍然显着优于最先进的方法，显示了我们方法的优越性。