人工智能咨询培训老师叶梓 转载标明出处
在化学这一特定学科的应用上,一直缺乏专门的对话模型。化学数据和科学知识通常存储在结构化的数据库中,这给直接使用这些数据训练语言模型带来了挑战。为了解决这一问题,来自上海人工智能实验室的研究团队及其合作者们开发了一种基于模板的指令构建方法,将结构化知识转化为适合语言模型训练的自然对话形式。
ChemLLM 的开发,填补了化学领域对话模型的空白。它不仅在化学任务上表现出色,如分子属性预测、分子生成和实验方案设计等,还在数学和物理等相关领域展现了出色的适应性。ChemLLM 在化学核心任务上超越了 GPT-3.5,并在其中两个任务上超越了 GPT-4。

ChemLLM 的开发过程中,研究团队面临了将化学领域的结构化数据转化为自然语言以供语言模型训练的挑战。为了应对这一挑战,他们创造了 ChemData,这是一个合成的化学指令调整数据集,它构成了训练 ChemLLM 的基础。

Ch