Med-MoE:轻量级医学视觉-语言模型的域特定专家混合

24年4月来自浙大、新加坡国立和北大的论文“Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models”。

通用或域特定多模态大语言模型 (LLM) 的最新进展见证了医学决策的显著进步。然而,它们被指定用于特定的分类或生成任务,并且需要在具有大量参数和大量计算的大规模数据集上进行模型训练或微调,这阻碍了它们在实践中在各种资源受限场景中的临床实用性。本文提出一个轻量级框架 Med-MoE(专家混合),用于处理判别和生成多模态医学任务。

Med-MoE 的学习包括三个步骤:多模态医学对齐、指令调整和路由、以及域特定 MoE 调整。在将多模态医学图像与 LLM tokens对齐后,通过指令调整使模型能够用于不同的多模态医学任务,并用可训练的路由器来针对输入模态的专家选择进行量身定制。最后,将路由器与多个域特定专家集成来调整模型,这些专家由元专家选择性激活并进一步工作。在 VQA-RAD、SLAKE 和 Path-VQA 等数据集上对开放式和封闭式医学问答 (Med-VQA) 和图像分类任务进行的全面实验表明,该模型可以实现优于或与最先进基线方法相当的性能,同时只需要大约 30%-50% 的激活模型参数。

代码发布在 https://github.com/jiangsongtao/TinyMed。

医学特定域模型,例如 Med-Flamingo (Moor,2023)、Med-PaLM M (Singhal,2023) 和 LLaVA-Med (Li,2024a),用医学领域数据进行训练,在各种医学任务(例如医学视觉问答 (Med-VQA))中表现出良好的效果。然而,这些模型通常针对某些类型的任务进行调整,例如封闭式或开放式 VQA,而在实践中,医学 MLLM 需要同时处理判别性和生成性任务,以提供更可靠和可解释的决策。此外,现有模型通常是使用具有较大参数的重型 LLM 获得的,例如 LLaVA-Med 中的 LLama(7B),导致训练和推理成本高昂,并阻碍其对广大临床从业者的实际效用。

构建轻量级但有效的医学 MLLM 进行多模态决策,很有吸引力但也具有挑战性 (Petersson,2022;Kelly,2019;Liao,2024)。最近的研究表明,扩大训练数据的数量或质量以及增加模型的大小可以提高性能 (Gao,2024;Shi ,2024;Xue,2024;Shen,2023;Lu ,2023 )。然而,训练和部署这些模型也需要大量的计算资源,这使得它们对许多可能缺乏足够计算能力的临床医生来说吸引力较小 (Lu ,2023 ;Crawford,2021 ;Thompson ,2020 )。例如,许多机构可能没有强大的 GPU(如 NVIDIA A100 卡)来调整 LLama-7B 模型系列,例如 LLaVA-Med。此外,医疗数据与网络内容有很大不同,其固有的多模态性(例如 CT、MRI、X 射线和病理成像)对开发有效但轻量级的医疗 MLLM 提出了额外的挑战(Acosta ,2022 ;Xu ,2024b)。当考虑到决策的可靠性和可解释性的要求时,这项任务变得更加困难(Salahuddin ,2022 ;Vellido,2020 )。

最近的研究,通过架构设计、训练过程或硬件优化等方式,探索轻量级 LLM 的经济高效训练 (Dubiel et al., 2024; Zhao et al., 2024; Hu et al., 2024; Zhou et al., 2024)。在这些技术中,混合专家 (MoE) 策略已显示出通用训练的巨大潜力 (Chen et al., 2022; He et al., 2021; Jacobs et al., 1991; Eigen et al., 2013),例如,Mixtral 系列采用稀疏 MoE 仅使用 12.9B 活动参数就实现了与 LLama-70B 相媲美的性能 (Jiang et al., 2024); MoE-LLaVA 提出一种基于 MoE 的稀疏大型 VLM 框架,并采用了新的训练策略(Lin ,2024 )。通过组合多个小规模子模块(即专家),并仅激活每个任务的前 k 个相关专家,MoE 模型可以以更少的计算成本实现良好的性能。尽管在一般领域取得了这些成功,但当前的 MoE 往往忽视医学环境中所需的专家专业化和协同作用,它们在医学领域的适用性仍未得到探索。

Med-MoE 的训练包括三个阶段,如图所示。首先,用视觉编码器的图像tokens执行多模态医学对齐,以帮助 LLM 理解医学图像。接下来,进行指令调整,使模型能够执行各种医疗任务并增强其指令遵循能力。同时,使用少量标记数据训练路由器以表征输入模态。最后,将模型的 FFN 替换为稀疏激活专家,执行特定领域的 MoE 调整,其中元专家始终处于激活状态以捕获全局信息。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ihsbjDPM-1721839296171)(https://i-blog.csdnimg.cn/direct/aa736eb0890d4ba18dea071b392e6b9a.png)]

在第 1 阶段,仅训练视觉编码器之后的 MLP 来实现模态对齐。整理与相应字幕 C 配对的医学图像 I 数据集来对齐视觉和文本模态。图像 I 被输入到视觉编码器 Ev 中以生成图像tokens Ti (Ti = Ev(Ii)),字幕 C 被token化为文本tokens Ttext (Ttext = Tokenizer(Ci))。连接tokens Tcomb 被输入到 LLM 中,该 LLM 经过训练可生成文本tokens的延续,从而最大限度地减少自监督损失。

第 2 阶段旨在增强模型遵循复杂医疗指令执行各种多模态任务的能力,并在下一阶段训练路由器以供专家选择。指令tokens Tinstr 和图像tokens Ti 被连接到 Tcomb 并输入到 LLM。使用医疗查询和响应的数据集训练模型以生成准确的响应,从而最大限度地减少损失。
还训练路由器用一小部分数据来预测输入模态。在此阶段,视觉编码器被冻结,而所有其他组件都经过训练。

在第 3 阶段,用 MoE(混合专家)架构取代了 LLM 的 FFN。在第 2 阶段训练的路由器将输入分配给特定专家,而元专家始终处于激活状态以捕获全局信息。MoE 层的输出是专家输出的加权组合。域特定专家和元专家使用第 2 阶段训练模型中的 FFN 权重进行初始化。在第 3 阶段,使用并冻结第 2 阶段的路由器,因此仅训练域特定专家和元专家。

选择两个小型 LLM,即 StableLM(1.7B)和 Phi2(2.7B)作为基础模型。得到的 Med-MoE 中激活参数大小分别为 2.0B(Med-MoE StableLM)和 3.6B(Med-MoE Phi2),另外还包含来自域特定专家和元专家的参数。为了确保与 LLaVA-Med 进行公平比较,还使用 Phi2(2.7B)主干训练一个 LLaVA-Med 模型。这样能够在相同的 LLM 主干下比较性能。还将方法与其他高效的方法(如基于 LoRA 的方法)相结合来研究其多功能性。实验超参数如表所示。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OPKvU3JW-1721839296172)(https://i-blog.csdnimg.cn/direct/166f763bef484ce5b74762ff8db1bf69.png)]

性能说明如图所示:上图展示模型在解决三种主要类型的医疗 VQA 挑战和图像分类任务方面的能力;下图是Med-MoE 与 LLaVA-Med 之间的比较,强调 Med-MoE 在推理速度、模型大小和卓越性能方面的优势。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZI5EID7y-1721839296172)(https://i-blog.csdnimg.cn/direct/024f93de4c9c4011b85626ae5b217649.png)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值