BioMistral 7B: 生物医学领域的开源多语言AI模型

人工智能咨询培训老师叶梓 转载标明出处

尽管目前有许多开源的针对健康领域的大模型可供使用,但现有模型在数据隐私风险、模型性能以及多语言支持方面的局限性,限制了它们在医疗领域的应用。为了克服这些限制,研究者们提出了BioMistral,一个专门为生物医学领域设计的开源大模型。它是由法国阿维尼翁大学和南特大学的研究团队共同开发的。该模型基于Mirstral模型,并进一步在PubMed Central上进行了预训练,以适应生物医学领域的专业需求。

BioMistral 

研究团队选择了PMC(PubMed Central)开放获取子集作为数据源,这是一个全面且可自由访问的医学研究论文集合。此选择受到PMC-LLaMA、PubMedBERT和SciFive等模型成功的启发,这些模型在医学应用的语言建模方面展示了显著的提升。

重点放在了允许商业使用的子集上,包含了在不同创作共用许可(如CC0、CC BY、CC BY-SA和CC BY-ND)下的文档。这确保了模型输出的可重用性,甚至可以用于商业目的。

在预处理阶段,研究者们旨在优化数据集以提高训练效率,同时考虑到硬件限制。目标是在Jean Zay HPC的20小时限制内,对Mistral模型进行1.5个epoch的进一步预训练。这一决策与Zephyr模型的建议相符,即观察1.5倍的语料库足以显著提升模型性能,超出这一阈值的边际效益有限。研究者们从预处理的PubMed Central语料库中精心挑选了30亿个token,大约对应147万份文档。数据集主要由英文文档组成(占语料库的98.75%),其余部分包括荷兰语、德语、法语等9种语言。策略上强调多语言数据集方法,优先考虑非英语文档,并辅以英文文本,以确保训练数据集的多样性和代表性,达到30亿token的目标。原始文本文档使用Mistral分词器进行预处理,包括分词和规范化流程。

在模型适应方面,研究者们利用Mistral 7B Instruct v0.1作为基础模型进行适应,原因在于其设计上适合在提示中纳入指令,并且能够使用有限的数据集进行微调以适应不同的任务。BioMistral 7B的预训练设置在很大程度上与Mistral 7B Instruct v0.1保持一致。优化方面,采用了AdamW优化器和余弦学习率调度器。模型架构继承了Mistral的标准transformer架构,包括Grouped-Query Attention、Sliding Window Attention和Rolling Buffer Cache等功能。所有模型,包括量化版本,都保持了2048个token的输入上下文长度,并结合了FlashAttention-2。

为了提高训练效率,研究者们引入了一种后分词分组方法,该方法通过聚合由序列结束标记(</s>)标记的可变大小序列,无需填充即可填满模型的2048-token序列。这减少了87.88%的序列数量,从而加快了epoch时间。

模型融合方法是一种提高模型性能和跨领域泛化能力的策略。本质上是将多个预训练模型的参数结合起来的过程,这样做的目的是在不需要额外训练的情况下增强模型的效果。在BioMistral项目中,研究者们特别关注了几种模型融合技术,包括SLERP、TIES和DARE。

SLERP(Spherical Linear Interpolation) 是一种在球面上进行线性插值的方法,它允许在两个模型参数集之间实现平滑过渡,同时避免了直接平均模型权重时可能发生的信息损失。SLERP通过保持模型参数的几何结构来减少信息丢失,这对于维持模型性能至关重要。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值