人工智能咨询培训老师叶梓 转载标明出处
科学推理旨在理解和决策STEM领域内的问题。它是智能的基本方面,也是LLMs的一项重要能力。然而,现有的LLMs在科学推理基准测试中的表现并不理想。例如,GPT-4在TheoremQA和SciBench基准测试中的准确率分别仅为50%和35%。为了解决这一问题,南洋理工大学、清华大学、微软公司、加州大学和新加坡管理大学的研究团队提出了一种新的方法,即通过工具学习来增强LLMs的科学推理能力。这种方法不是从头开始解决科学问题,而是利用科学计算软件中已经总结和封装的各种函数,如Matlab、WolframAlpha、SymPy等,来辅助解决问题。

左侧是逐个领域收集注释并微调LLMs的方法,右侧是提出的工具增强设置。LLMs在数学相关、工具增强的样本上进行微调,并在适应特定领域时附加一个可插拔的、领域特定的工具集
在工具辅助科学推理的设置中,LLMs被赋予了访问特定领域工具集的能力。这些工具集包含了大量经过良好文档化、特定于领域的函数。为了支持这种新的设置,研究者们构建了一个名为MATHFUNC的训练语料库。该语料库包含超过30,000个样本和大约6,000个工具。这些样本和工具被设计用来教授LLMs基本的数学技能以及如何检索、理解和使用函数。MATHFUNC的构建基于MATH训练集,目的是让LLMs同时学习数学技能和工具使用能力。
训练语料库:MATHFUNC

图2展示了MATHFUNC训练语料库的自动化构建流程,该流程从左下角开始,按顺时针方向进行。在这一流程中,工具集的构建(用虚线表示)和功能增强型样本的构建(用实线表示)是分开进行的,以确保生成的注释更加通用。
计划与工具集构建
在计划与工具集构建阶段,研究者们首先使用GPT-4生成针对MATH训练集中问题(q)的高层次计划(Gq)。这个计划是解决问题的初步思路,为接下来的步骤提供指导。接着,GPT-4根据这个计划生成一组函数(),这些函数旨在帮助解决特定的问题。生成的解决方案(
)将调用这些函数,以展示如何将数学知识和工具使用结合起来解决问题。
研究者