【CVPR24】OmniMedVQA: 一种新的医疗LVLM大规模综合评估基准

论文介绍

论文: OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM

代码: https://github.com/OpenGVLab/Multi-Modality-Arena

会议与年份:CVPR24

ae6ab279371d2adb83140150ea19b9eb.png

全文概述

本篇论文介绍了针对医疗领域的视觉问答任务(Medical VQA)的新基准测试集——OmniMedVQA。该测试集由来自73个不同医学数据集的超过5万张真实医学图像组成,涵盖了12种不同的模态和20多个解剖学区域。通过实验发现,现有的大型视觉语言模型(LVLM)在解决这些医疗视觉问答问题时表现不佳,甚至专门用于医学领域的LVLM也比通用模型表现差。这表明需要更灵活、更强大的LVLM来应对生物医学领域的需求。本文的研究结果不仅揭示了现有LVLM对真实医学图像理解的局限性,还突显了OmniMedVQA数据集的重要性。作者们已经将代码和数据集公开发布,供其他研究人员使用。

全文贡献

  • 我们提出OmniMedVQA,这是一个针对医疗领域的大型且全面的视觉问答基准。OmniMedVQA包含12种不同的模态,并涵盖了超过20个独特的解剖区域,为评估LVLM在应对医疗挑战方面的基本能力建立了综合基准。

  • 我们对包括8个通用领域LVLM和4个专门针对医疗应用设计的LVLM在内的12种不同类型的LVLM进行了全面评估。据我们所知,这是迄今为止针对医疗领域的最全面的LVLM评估。

  • 我们的评估揭示了几个创新见解,并为未来改善LVLM以适应医疗应用提供了宝贵的指导。

数据集

f90d1b535f41a7b65a55e761d1b509e6.png

数据集构建过程

OmniMedVQA数据集的构建基于73个不同的医学数据集,这些数据集覆盖了12种不同的成像模态和超过20个解剖区域。构建过程中,首先收集了大量的医学分类数据集,然后利用GPT的强大上下文推理能力,将这些数据转换为视觉问答(VQA)格式 。此外,为了增加数据集的多样性和评估能力,还通过ChatGPT-3.5 API对问题进行了重新表述,并生成了错误选项,从而构建了多选题问答对。

数据集特点

OmniMedVQA数据集是一个大规模、多样化且全面的医学视觉问答基准,包含118,010张来自真实医疗场景的图像,覆盖12种不同成像模态和20多个解剖区域,旨在评估大型视觉语言模型在医学领域的性能,其多模态和多区域的特点使其成为测试和改进LVLMs在医学影像理解和问答能力的重要资源。

数据集所涉及到的12中模态

OmniMedVQA数据集包含了以下12种不同的成像模态:

Colposcopy(宫颈检查):319张图像,338个QA项。
CT(计算机断层扫描):14,457张图像,15,836个QA项。
Digital Photography(数字摄影):2,308张图像,2,786个QA项。
Fundus Photography(眼底摄影):10,108张图像,10,815个QA项。
Infrared Reflectance Imaging(红外反射成像):9,477张图像,9,785个QA项。
MR(磁共振成像):31,917张图像,32,705个QA项。
Optical Coherence Tomography(光学相干断层扫描):3,791张图像,4,646个QA项。
Dermoscopy(皮肤镜检查):5,967张图像,6,762个QA项。
Endoscopy(内窥镜检查):1,432张图像,1,877个QA项。
Microscopy Images(显微镜图像):19,785张图像,21,743个QA项。
X-Ray(X射线):7,594张图像,9,711个QA项。
Ultrasound(超声检查):10,855张图像,10,991个QA项

评估过程

在论文中,评估过程旨在全面测试12种不同的大型视觉语言模型(LVLMs)在OmniMedVQA数据集上的性能,其中包括8个通用领域模型和4个专门针对医疗领域的模型。评估涉及构建输入提示,将问题和候选选项结合,并传递给LVLMs以生成响应。为了全面评估模型性能,采用了两种评估指标:问答得分和基于前缀的得分。问答得分直接衡量模型选择与真实答案的匹配程度,而基于前缀的得分则衡量模型对每个选项生成文本内容的可能性,反映模型的内在知识水平。

6d5258eb77ccec0dbac6dbe2070e06bc.png

实验分析

精度对比

335ae1f2a99dcd7cc9ee8084a22190ac.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

gorgeous(๑>؂<๑)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值