SCIAGENT：增强科学推理能力的辅助工具语言模型-CSDN博客

本文链接：https://blog.csdn.net/weixin_44292902/article/details/140717354

人工智能咨询培训老师叶梓转载标明出处

科学推理旨在理解和决策STEM领域内的问题。它是智能的基本方面，也是LLMs的一项重要能力。然而，现有的LLMs在科学推理基准测试中的表现并不理想。例如，GPT-4在TheoremQA和SciBench基准测试中的准确率分别仅为50%和35%。为了解决这一问题，南洋理工大学、清华大学、微软公司、加州大学和新加坡管理大学的研究团队提出了一种新的方法，即通过工具学习来增强LLMs的科学推理能力。这种方法不是从头开始解决科学问题，而是利用科学计算软件中已经总结和封装的各种函数，如Matlab、WolframAlpha、SymPy等，来辅助解决问题。

两种科学推理的范式
左侧是逐个领域收集注释并微调LLMs的方法，右侧是提出的工具增强设置。LLMs在数学相关、工具增强的样本上进行微调，并在适应特定领域时附加一个可插拔的、领域特定的工具集

在工具辅助科学推理的设置中，LLMs被赋予了访问特定领域工具集的能力。这些工具集包含了大量经过良好文档化、特定于领域的函数。为了支持这种新的设置，研究者们构建了一个名为MATHFUNC的训练语料库。该语料库包含超过30,000个样本和大约6,000个工具。这些样本和工具被设计用来教授LLMs基本的数学技能以及如何检索、理解和使用函数。MATHFUNC的构建基于MATH训练集，目的是让LLMs同时学习数学技能和工具使用能力。

训练语料库：MATHFUNC

图2展示了MATHFUNC训练语料库的自动化构建流程，该流程从左下角开始，按顺时针方向进行。在这一流程中，工具集的构建（用虚线表示）和功能增强型样本的构建（用实线表示）是分开进行的，以确保生成的注释更加通用。

计划与工具集构建

在计划与工具集构建阶段，研究者们首先使用GPT-4生成针对MATH训练集中问题（q）的高层次计划（Gq）。这个计划是解决问题的初步思路，为接下来的步骤提供指导。接着，GPT-4根据这个计划生成一组函数（），这些函数旨在帮助解决特定的问题。生成的解决方案（）将调用这些函数，以展示如何将数学知识和工具使用结合起来解决问题。