【CVPR24】OmniMedVQA: 一种新的医疗LVLM大规模综合评估基准

gorgeous(๑>؂<๑）

于 2024-11-29 18:04:38 发布

阅读量887

点赞数 16

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/wxd1233/article/details/144154068

版权

论文介绍

论文: OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM

代码: https://github.com/OpenGVLab/Multi-Modality-Arena

会议与年份：CVPR24

全文概述

本篇论文介绍了针对医疗领域的视觉问答任务（Medical VQA）的新基准测试集——OmniMedVQA。该测试集由来自73个不同医学数据集的超过5万张真实医学图像组成，涵盖了12种不同的模态和20多个解剖学区域。通过实验发现，现有的大型视觉语言模型（LVLM）在解决这些医疗视觉问答问题时表现不佳，甚至专门用于医学领域的LVLM也比通用模型表现差。这表明需要更灵活、更强大的LVLM来应对生物医学领域的需求。本文的研究结果不仅揭示了现有LVLM对真实医学图像理解的局限性，还突显了OmniMedVQA数据集的重要性。作者们已经将代码和数据集公开发布，供其他研究人员使用。

全文贡献

我们提出OmniMedVQA，这是一个针对医疗领域的大型且全面的视觉问答基准。OmniMedVQA包含12种不同的模态，并涵盖了超过20个独特的解剖区域，为评估LVLM在应对医疗挑战方面的基本能力建立了综合基准。
我们对包括8个通用领域LVLM和4个专门针对医疗应用设计的LVLM在内的12种不同类型的LVLM进行了全面评估。据我们所知，这是迄今为止针对医疗领域的最全面的LVLM评估。
我们的评估揭示了几个创新见解，并为未来改善LVLM以适应医疗应用提供了宝贵的指导。

数据集

数据集构建过程

OmniMedVQA数据集的构建基于73个不同的医学数据集，这些数据集覆盖了12种不同的成像模态和超过20个解剖区域。构建过程中，首先收集了大量的医学分类数据集，然后利用GPT的强大上下文推理能力，将这些数据转换为视觉问答（VQA）格式。此外，为了增加数据集的多样性和评估能力，还通过ChatGPT-3.5 API对问题进行了重新表述，并生成了错误选项，从而构建了多选题问答对。

数据集特点

OmniMedVQA数据集是一个大规模、多样化且全面的医学视觉问答基准，包含118,010张来自真实医疗场景的图像，覆盖12种不同成像模态和20多个解剖区域，旨在评估大型视觉语言模型在医学领域的性能，其多模态和多区域的特点使其成为测试和改进LVLMs在医学影像理解和问答能力的重要资源。

数据集所涉及到的12中模态

OmniMedVQA数据集包含了以下12种不同的成像模态：

Colposcopy（宫颈检查）：319张图像，338个QA项。
CT（计算机断层扫描）：14,457张图像，15,836个QA项。
Digital Photography（数字摄影）：2,308张图像，2,786个QA项。
Fundus Photography（眼底摄影）：10,108张图像，10,815个QA项。
Infrared Reflectance Imaging（红外反射成像）：9,477张图像，9,785个QA项。
MR（磁共振成像）：31,917张图像，32,705个QA项。
Optical Coherence Tomography（光学相干断层扫描）：3,791张图像，4,646个QA项。
Dermoscopy（皮肤镜检查）：5,967张图像，6,762个QA项。
Endoscopy（内窥镜检查）：1,432张图像，1,877个QA项。
Microscopy Images（显微镜图像）：19,785张图像，21,743个QA项。
X-Ray（X射线）：7,594张图像，9,711个QA项。
Ultrasound（超声检查）：10,855张图像，10,991个QA项

评估过程

在论文中，评估过程旨在全面测试12种不同的大型视觉语言模型（LVLMs）在OmniMedVQA数据集上的性能，其中包括8个通用领域模型和4个专门针对医疗领域的模型。评估涉及构建输入提示，将问题和候选选项结合，并传递给LVLMs以生成响应。为了全面评估模型性能，采用了两种评估指标：问答得分和基于前缀的得分。问答得分直接衡量模型选择与真实答案的匹配程度，而基于前缀的得分则衡量模型对每个选项生成文本内容的可能性，反映模型的内在知识水平。