BioMistral 7B: 生物医学领域的开源多语言AI模型-CSDN博客

本文链接：https://blog.csdn.net/weixin_44292902/article/details/141134950

人工智能咨询培训老师叶梓转载标明出处

尽管目前有许多开源的针对健康领域的大模型可供使用，但现有模型在数据隐私风险、模型性能以及多语言支持方面的局限性，限制了它们在医疗领域的应用。为了克服这些限制，研究者们提出了BioMistral，一个专门为生物医学领域设计的开源大模型。它是由法国阿维尼翁大学和南特大学的研究团队共同开发的。该模型基于Mirstral模型，并进一步在PubMed Central上进行了预训练，以适应生物医学领域的专业需求。

BioMistral

研究团队选择了PMC（PubMed Central）开放获取子集作为数据源，这是一个全面且可自由访问的医学研究论文集合。此选择受到PMC-LLaMA、PubMedBERT和SciFive等模型成功的启发，这些模型在医学应用的语言建模方面展示了显著的提升。

重点放在了允许商业使用的子集上，包含了在不同创作共用许可（如CC0、CC BY、CC BY-SA和CC BY-ND）下的文档。这确保了模型输出的可重用性，甚至可以用于商业目的。

在预处理阶段，研究者们旨在优化数据集以提高训练效率，同时考虑到硬件限制。目标是在Jean Zay HPC的20小时限制内，对Mistral模型进行1.5个epoch的进一步预训练。这一决策与Zephyr模型的建议相符，即观察1.5倍的语料库足以显著提升模型性能，超出这一阈值的边际效益有限。研究者们从预处理的PubMed Central语料库中精心挑选了30亿个token，大约对应147万份文档。数据集主要由英文文档组成（占语料库的98.75%），其余部分包括荷兰语、德语、法语等9种语言。策略上强调多语言数据集方法，优先考虑非英语文档，并辅以英文文本，以确保训练数据集的多样性和代表性，达到30亿token的目标。原始文本文档使用Mistral分词器进行预处理，包括分词和规范化流程。

在模型适应方面，研究者们利用Mistral 7B Instruct v0.1作为基础模型进行适应，原因在于其设计上适合在提示中纳入指令，并且能够使用有限的数据集进行微调以适应不同的任务。BioMistral 7B的预训练设置在很大程度上与Mistral 7B Instruct v0.1保持一致。优化方面，采用了AdamW优化器和余弦学习率调度器。模型架构继承了Mistral的标准transformer架构，包括Grouped-Query Attention、Sliding Window Attention和Rolling Buffer Cache等功能。所有模型，包括量化版本，都保持了2048个token的输入上下文长度，并结合了FlashAttention-2。

为了提高训练效率，研究者们引入了一种后分词分组方法，该方法通过聚合由序列结束标记（</s>）标记的可变大小序列，无需填充即可填满模型的2048-token序列。这减少了87.88%的序列数量，从而加快了epoch时间。

模型融合方法是一种提高模型性能和跨领域泛化能力的策略。本质上是将多个预训练模型的参数结合起来的过程，这样做的目的是在不需要额外训练的情况下增强模型的效果。在BioMistral项目中，研究者们特别关注了几种模型融合技术，包括SLERP、TIES和DARE。

SLERP（Spherical Linear Interpolation） 是一种在球面上进行线性插值的方法，它允许在两个模型参数集之间实现平滑过渡，同时避免了直接平均模型权重时可能发生的信息损失。SLERP通过保持模型参数的几何结构来减少信息丢失，这对于维持模型性能至关重要。