【论文笔记】A Survey on Deep Learning and Explainability for Automatic Report Generation from Medical

论文:A Survey on Deep Learning and Explainability for Automatic Report Generation from Medical Images

RESEARCH QUESTIONS

(1) What datasets are used in this area? What diseases and imaging techniques are considered?该领域使用哪些数据集? 考虑哪些疾病和影像技术?

(2) What deep learning methods are the most commonly employed?最常用的深度学习方法有哪些?

(3) What explainability or interpretability techniques are used?使用了哪些可解释性或可解释性技术?

(4) How are the proposed models evaluated? What metrics are used? 如何评估所提出的模型? 使用什么指标?

(5) How is the performance of the automatic methods? Which method can be considered state of the art or showing the best performance? 自动方法的性能如何? 哪种方法可以被认为是最先进的或显示出最佳性能?

(6) What are the main unsolved challenges? What are the potential avenues for future work?尚未解决的主要挑战是什么? 未来工作的潜在途径是什么?

ANALYSIS

数据集

大部分几种在胸部 X 射线,也有包含不同类型的生物医学图像的数据集

IU X-ray为最常用,由 7,470 个正面和侧面胸部 X 射线和 3,955 个报告组成。此外,每份报告均使用医学主题词 (MeSH)RadLex术语进行手动注释。并使用 MTI 系统加上 MetaMap的否定工具自动使用 MeSH 术语进行注释。但与IMAGENET这些一般数据集相比,数量较少,需要使用数据增强或者预训练来处理。最近的数据集MIMIC-CXR或 PadChest 可以部分解决这个问题,它们分别包含 377,110 和160,868 个图像,但尚未广泛使用。所有报告数据集都包含图像和报告,其中大多数还包含每个报告的标签。

综上,这些数据集涵盖多种图像模式和身体部位,但大多数工作都集中在胸部 X 光检查上。这开辟了一条潜在的研究途径,可以使用现有的解决方案或提出新的方法来探索其他图像类型和疾病。此外,大多数集合提供有价值的补充信息,例如异常标签和/或定位,可用于设计辅助任务和评估性能。

Model Design

其核心是卷积神经网络(CNN),它处理一个或多个输入图像以提取视觉特征。然后是语言组件,通常基于众所周知的 NLP 神经架构(例如 LSTM、BiLSTM 、GRU、Transformer),负责文本处理和报告生成。

输入与输出

输入:大多数论文使用胸部 X 光检查。总共 32 个模型接收单个图像(例如,单个胸部 X 射线视图),6 个模型接收 2 个图像(正面和侧面胸部 X 射线视图),2 个模型接收任意数量的图像(例如,多个图像)。腹部 CT 扫描切片)。

输出:(1) Generative multi-sentence (unstructured): these models generate a multi-sentence report, word by word, with freedom to decide the number of sentences and the words in each sentence. (2) Generative multisentence structured: similar to the previous category, but always output a fixed number of sentences, and each sentence always has a pre-defined topic. These models are designed for datasets where reports follow a rigid structure. (3) Generative single-sentence: generate a report word by word, but only output a single sentence. These models are designed for datasets with simple one-sentence reports. (4) Template-based: use human-designed templates to produce the report, for example performing a classification task followed by if-then rules, template selection and template filling. This simplifies the report generation task for the model, at the expense of making it less flexible and requiring the human designing of templates and rules. And lastly (5) Hybrid template - generation/edition: use templates and also have the freedom to generate sentences word by word. This can be accomplished by choosing between a template or generating a sentence from scratch, or by editing/paraphrasing a previously selected template.

许多模型还输出补充的分类预测,例如是否存在异常或疾病、MeSH 概念、身体部位或器官等,许多模型还可以使用不同的技术在图像上输出热图,突出显示相关区域,例如在报告生成过程中计算的显式视觉注意力权重、显着图方法(例如CAM、Grad-CAM、SmoothGrad 或基于激活的注意力)、边界框回归和像素级分类(图像分割)。此外,一种模型 [61] 可以在其输入文本上输出热图,而一种模型 [126] 可以生成反事实示例来证明其决策的合理性。我们将在可解释性部分(5.3)中更详细地讨论所有这些输出及其用途。

Visual Component 视觉组件

使用CNN来处理图像

不同的是,有的使用用于标签的多标签分类,然后通过嵌入矩阵查找将其映射到嵌入向量。因此,报告生成模块只能访问这些标签向量,而不能访问视觉特征本身。类似地,两个作品 [68, 155] 对标签嵌入向量进行分类和查找,但与之前的作品不同,语言组件使用共同注意力来同时访问标签向量和视觉特征。其他作品在 CNN 之后立即使用图神经网络,根据医学概念及其关系对视觉信息进行编码。

Language Component 语言模块

语言组件的工作是生成报告。最简单的方法是使用循环神经网络(例如 LSTM 或 GRU)逐字生成完整报告。所有这些工作的共同点是 GRU/LSTM 在开始时从视觉组件接收编码向量,并从中解码完整的报告。

Domain knowledge 领域知识

1)在 CNN 之后使用图神经网络,提供架构偏差来指导模型从图像中识别医学概念及其关系; 2) 通过访问专家管理的外部模板数据库来增强模型的报告生成。

Auxiliary Tasks 辅助任务

最常见的辅助任务是多标签(16 篇论文)和单标签(11 篇论文)分类。

Optimization Strategies 优化策略

第一个是是否使用文献中的 CNN,其权重在 ImageNet中预训练。一般来说,这是计算机视觉文献中非常常见的迁移学习实践,因此很自然地看到它也用于医学领域。然而,事实证明,由于图像分布非常不同,ImageNet 预训练可能无法像通常情况下转移到其他领域那样转移到医学图像任务。因此,一个非常常见的第二个决定是是否使用辅助医学图像任务来训练/微调视觉组件,例如上一节(5.2.5)中讨论的大多数分类和分割任务。第三个决定是在报告生成训练期间冻结视觉组件权重还是继续以端到端的方式更新它们。

报告生成。两种通用优化策略:Teacherforcing(TF)和强化学习(RL)。教师强制的基本思想是训练一个模型,根据前面的单词来预测报告中的每个单词,从而学习逐字模仿真实情况。该模型通常有一个 softmax 层来预测下一个单词,而交叉熵是选择的损失函数,用于测量误差和计算反向传播的梯度。使用 RL 的主要原因是它提供了优化不可微分奖励函数的灵活性,使研究人员能够更具创造力并探索新的奖励,从而引导模型学习实现感兴趣的特定领域目标。

Explainability 可解释性

尽管可解释性在这一领域很重要,但只有少数几篇著作明确关注这一主题。

Counter-factual

为了提供局部解释,在推理时,输入图像被编码成潜在向量,该向量用于生成新的胸部 X 射线和新的报告,两者都会产生最接近的替代分类,即,最近的诊断。有了这些信息,用户就可以将原始 X 射线与生成的图像进行比较,并尝试理解模型做出决定的原因。

Classification

许多深度学习架构包括多标签分类以提高性能,提供一组分类概念作为辅助输出。

Image heatmap、Text heatmap

在分割和显着图方法中,热图信息提供了比单独分类更丰富的信息,因为它还包括特定概念的位置,例如异常或身体部位。提供此类解释应该允许专家评估模型的本地化能力和系统准确性,从而提高模型整个过程的透明度。

Evaluation Metrics 评估指标

评估指标分为三类:文本质量、医学正确性和可解释性

Text quality metrics

此类方法测量生成文本的一般质量,源自翻译、摘要或字幕任务。所评论论文中最广泛使用的指标是 BLEU [102]、ROUGE-L [90]、METEOR [12, 82] 和CIDEr [140],它们测量目标文本(也称为候选文本)的相似度,针对一个或多个参考文本(基本事实)。

Medical correctness metrics

虽然文本质量指标最常见的目的是衡量生成的报告与基本事实之间的相似性,但它们不一定捕获报告中的医学事实。例如,句子"观察到积液"和"未观察到积液"非常相似,因此可能会为基于 n-gram 匹配的任何指标提供非常高的分数,尽管医学事实是最重要的完全相反。

Explainability metrics

Comparison of papers' performance

CHALLENGES AND FUTURE WORK

专家评估。如果最终目标是开发满足高质量标准的报告生成系统,那么由医学专家对此类系统进行彻底测试以评估其在不同临床环境中的性能是有意义的。

医疗正确性的自动指标。进行适当的专家评估是可取的。然而,每次对模型进行小调整时,要求放射科医生手动评估数百份机器生成的报告是不可行的。相反,人们希望有一个或多个与专家人工评估正相关的自动指标,以加快模型设计和测试周期。

提高可解释性。

新的学习策略和架构。

其他图像模式和身体区域的探索较少。大多数研究都集中在胸部 X 光检查,因为 40 篇论文中有 24 篇将研究重点放在这种图像类型上。

医学人机交互。大多数经过审查的作品都忽略了有关模型在真实临床环境中的集成以及作为人工智能助手与临床医生互动的重要方面。除了高精度之外,系统还应该在医疗人机协作工作流程中满足其他需求。

CONCLUSIONS

在这项工作中,我们从不同的关键方面回顾了基于深度学习的医学图像自动报告生成方法的研究现状。首先,我们描述了文献中可用和常用的报告和分类数据集,总共 27 个集合,涵盖不同的图像模式和身体部位,并包括有用的标签和定位信息。其次,我们从标准实践、输入和输出、视觉组件、语言组件、领域知识、辅助任务和优化策略方面对模型设计进行了分析。由于缺乏适当的评估,我们无法推荐最佳模型设计,但可以推断出一些指导方针。例如,强大的视觉组件应该利用 CNN,并且肯定会受益于辅助医学图像任务的训练。此外,通过标签或输入文本(例如报告的指示部分)或访问模板数据库用语义信息补充视觉输入通常可以提高语言组件的性能。整合多个任务监督的多任务学习和直接优化生成报告中事实正确性或其他感兴趣指标的强化学习似乎是最有前途的优化方法。第三,我们分析了文献中采用的可解释性方法,发现许多模型提供了二次输出,可以通过提供特征重要性图、反事实示例或通过增加系统来用作局部解释。的透明度。然而,只有两部作品通过广泛讨论并提供正式评估来明确关注这一问题的研究。此外,还可以探索许多其他方法,因此这仍然是这项任务中一个未被充分研究的方面。第四,我们讨论了有关评估指标的通常做法,我们发现大多数模型仅使用传统的基于 n-gram 的 NLP 指标进行评估,这些指标并非为医学设计,无法在书面报告中捕获基本的医学事实。接下来,我们在最常用的数据集 IU X-Ray 上展示了论文的性能结果比较,但仅限于论文报告的 NLP 指标,使我们无法从医学角度判断模型。最后,我们确定了该领域所面临的挑战,所审查的论文都没有成功解决,并且我们提出了未来研究的途径,我们相信可以找到可能的解决方案。主要挑战在于通过开发专家评估的标准协议和医疗正确性的自动指标来改进所采用的评估方法。其他重要方面是提高模型的可解释性,并考虑医学人机交互。我们希望这项调查能够作为研究人员的一个切入点,帮助他们了解该领域当前的进展,并提高人们对未来研究中的关键问题的认识。

收款日期 租期起始日期 租期终止日期 租期单价 租期(月数) 租金 2022-12-25 2023-01-15 2023-04-14 20 3 600 深度学习在OCR和文档理解方面的应用综述 OCR(光学字符识别)和文2023-03-25 2023-04-15 2023-07-14 20 3 636 2023档理解是深度学习的重要应用之一。已经提出了许多深度学习方法来-06-25 2023-07-15 2023-10-14 20 3 673 2023-09应对OCR和文档理解的问题。其中一些最流行的方法包括卷积神经网络(CNN)、-25 2023-10-15 2024-01-14 20 3 711 2023-12-25循环神经网络(RNN)和注意力机制。 CNN被用于OCR中从文本图像中提取 2024-01-15 2024-04-14 20.12 3 605.12 2024-03特征。这些特征被送入分类器中以识别字符。CNN也被用于文档理解,例如-25 2024-04-15 2024-07-14 20.12 3 643.66 2024在文档图像中检测和识别物体。 RNN被用于OCR中识别手写文本。R-06-25 2024-07-15 2024-10-14 20.12 3 682.81 NN可以处理可变长度的输入序列,这使它们适用于识别手写文本。RNN也被2024-09-25 2024-10-15 2025-01-14 20.12 3 722.用于文档理解,例如识别文档的结构并从中提取信息。 注意力机制已被用58 2024-12-25 2025-01-15 2025-04-14 20.34 3 610.22 2025-03-25 2025-04-15 2025-07-14 20.34 于OCR和文档理解中,以聚焦于图像或文档的重要区域。注意力机制允3 649.28 2025-06-25 2025-07-15 2025-10-14 20.许模型有选择性地聚焦于输入的某些部分,这可以提高性能。 总的来说,深度学习已经在OCR和文档理解方面展示了巨大的潜力。然而,仍然34 3 689.01 2025-09-25 2025-10-15 2026-01-14 20.34 3 729.41 ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wufen_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值