专注于推理和输出分子结构的24B化学推理模型：ether0

最新推荐文章于 2025-12-12 18:01:47 发布

原创最新推荐文章于 2025-12-12 18:01:47 发布 · 575 阅读

CC 4.0 BY-SA版权

文章标签：

366 篇文章

订阅专栏

FutureHouse_ether0

文章主要介绍了一个名为ether0的24B语言模型，该模型专注于推理和输出分子结构（以SMILES格式表示），并具有一定的化学相关任务处理能力。

ether0模型源自对Mistral-Small-24B-Instruct-2501的微调和强化学习训练。它能够处理多种化学相关任务，但并非通用聊天模型。模型支持以SMILES格式输入分子，也具备一定程度的IUPAC名称处理能力。

ether0模型适用于以下多种化学相关任务：

需要注意的是，模型在处理超出其特定任务范围的问题时可能会失败，并且无法回答如“CCCCC(O)=OH的pKa是多少？”此类问题。此外，虽然可以组合属性进行任务，但尚未显著评估其效果。

ether0模型存在以下局限性：

通用知识不足：模型不掌握通用同义词，并且在教科书知识方面表现不佳，例如在chembench上的表现并不突出。
命名准确性问题：如果以常见名称输入分子，模型可能会使用错误的SMILES进行推理，导致结果不准确。例如，在使用常见名称提问时，模型容易将赖氨酸和谷氨酸混淆，但如果提供SMILES格式的结构，模型能够正确推理其化学性质。

ether0模型的训练过程包括以下几个关键步骤：

预训练：基于DeepSeek r1的大部分错误推理痕迹对Mistral-Small-24B-Instruct-2501进行预训练，以激发推理能力并遵循新的标记/模板。
专家模型训练：针对上述任务之一，使用GRPO和可验证奖励独立训练专家模型。
推理痕迹聚合与过滤：从专家模型中收集并过滤出正确的推理痕迹（包含正确答案和推理过程），再次用于微调Mistral-Small-24B-Instruct-2501。
全面任务GRPO：在所有任务上进行GRPO训练。
安全后训练：对模型进行安全后训练，包括拒绝OPCW计划1和2中列出的化合物，以及拒绝有关制造炸药或毒药等恶意话题的问题。