论文翻译:Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challe

Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challenges
https://arxiv.org/abs/2401.08664

适应大型语言模型于教育:基础能力、潜力与挑战

摘要

在线教育平台利用互联网分发教育资源,旨在提供便捷的教育,但通常在与学生的实时交流中表现不足。它们往往难以解决学生在学习过程中遇到的多样化障碍。解决学生遇到的问题对于传统的深度学习模型来说是一个重大挑战,因为这不仅需要广泛的学科知识,还需要理解构成学生个体困难的因素。这对传统机器学习模型来说具有挑战性,因为它们缺乏理解学生个性化需求的能力。最近,大型语言模型(LLMs)的出现提供了解决这一问题的可能性,通过理解个体请求。尽管LLMs在各个领域都取得了成功,但创建基于LLM的教育系统仍然具有挑战性,因为需要广泛的教育技能。本文回顾了最近出现的与教育能力相关的LLM研究,包括数学、写作、编程、推理和基于知识的问答,目的是探索它们在构建下一代智能教育系统中的潜力。具体来说,对于每种能力,我们专注于调查两个方面。首先,我们检查LLMs在这种能力方面的当前状态:它们变得多么先进,是否超越了人类能力,以及可能存在哪些缺陷。其次,我们评估LLMs在这一领域的开发方法是否具有普适性——即这些方法是否可以应用于构建一个全面的教育超级模型,具有各种能力的优势,而不是仅在单一方面有效。基于当前的发展状态,我们进一步概述了两种基于LLM的教育系统方法:统一方法和专家混合(MoE)方法。最后,我们探讨了挑战和未来方向,为适应LLMs进行教育提供了新的研究机会和视角。

1. 引言

教育在塑造个人未来中发挥着至关重要的作用,因为它为人们提供知识、技能和批判性思维能力奠定了基础。传统的教育系统严重依赖教师向学生传授知识,这对教育资源提出了重大需求。然而,在线教育的出现大大降低了获取这些教育材料的成本。许多人正通过在线课程和练习方便地获取知识。

为了在在线教育中实现个性化学习,已经做出了巨大努力(Abdelrahman等人,2023年;Li等人,2023b;Gong等人,2020年)。这些方法大多基于使用神经网络预测学生的知识状态或推荐个性化学习资源,基于学生行为序列。然而,这种方法只实现了粗略的个性化水平。即使学生收到了推荐的资源,他们在学习过程中遇到的特定困难可能仍然无法解决。这些困难可能因学生而异;例如,不同的学生可能在同一个问题的各个方面遇到困难,如对关键概念的误解或推理过程中的困难。这些问题需要每个学生提供详细描述,以便教育工作者理解。然而,当前的在线教育系统面临着无法像教师那样与学生实时互动的问题。目前,在线教育平台通常提供静态的课程视频和练习,使学生无法提出问题或寻求解决特定问题的动态解决方案。因此,开发一个能够解决学生个体关切的教学助手模型是推进在线教育的重要一步。

大型语言模型(LLMs)的出现为创建智能教育系统注入了乐观情绪。自从ChatGPT推出以来,LLMs在理解人类知识方面表现出色,并已广泛应用于各种专业领域,包括推荐系统(Lin等人,2023年)、医疗保健(Liu等人,2023f)、经济学(Li等人,2023a)等。通过引入广泛的世界知识、相当的推理能力以及理解人类语言的能力,LLMs有潜力在这些领域引入新的互动形式和方法。然而,构建基于LLM的教育系统时挑战加剧。要解决学生遇到的特定问题,LLMs不仅需要理解学生面临的确切问题,还必须拥有专门的教育相关知识和技能。只有这样,它们才能解决学生自己可能无法解决的问题。

LLMs回答学生问题的行为可以被视为涉及使用多种教育能力的过程。例如,如图1所示,学生提出的问题要求教育助手同时具备数学和编程技能。因此,总结开发LLMs教育相关能力的方法对于构建下一代智能教育系统具有意义。在本文中,我们从这些教育相关能力的角度研究LLMs,并探索基于LLM的教育系统的潜力,旨在为需要进一步改进的领域提供有价值的见解。我们在图2中展示了我们的主要调查。我们的特定关注点集中在LLMs的五种不同能力上:
在这里插入图片描述

图 1. 基于LLM的教育系统集成多种能力解决学生问题的例子。

  • 数学:我们主要总结了LLMs在解决不同难度和类型的数学问题方面的当前发展情况,包括基本算术运算、具有挑战性的问题、多模态问题和数学证明。
  • 写作:我们调查了LLMs在一些代表性写作任务上的表现,以概述LLMs面临的问题和潜在的未来方向。
  • 编程:根据人类编程惯例,我们将LLMs的编程过程分为两个阶段:代码编写和代码优化。我们回顾了这一领域的研究并总结了LLMs在编码方面的剩余问题。
  • 推理:我们探索了LLMs以各种方式进行推理的能力,包括监督微调、提示工程和混合方法,并探索了它们在教育领域的潜在应用。
  • 基于知识的问答:我们调查了LLMs在开放领域和特定领域的基于知识问答方面的发展。我们希望提供一个全面的视角,将这些能力整合到教育系统中。
    这五种能力构成了基于LLM的教育系统的基础。在这个基础上,我们提出了两种可能的方法来形成基于LLM的教育系统。一种方法是训练一个具有多种能力的全面语言模型,另一种方法是基于专家混合框架中的LLM控制器。

本文的其余部分组织如下。在第2节中,我们简要介绍了教育任务和教育LLMs。在第3节中,我们总结了与教育相关的五种基础能力的当前发展状况,随后讨论了教育相关LLM能力的发展趋势。在第4节中,我们调查了知名LLMs在教育相关能力上的表现。在第5节中,我们介绍了组织基于LLM的教育系统的潜在方法。最后,在第6节和第7节中,我们强调了为设计基于LLM的教育系统所面临的挑战和未来方向,并总结了这项调查。
在这里插入图片描述

图 2. LLM教育相关基础能力的总结。

2. 背景

在这一部分,我们首先讨论教育任务,并介绍LLMs在智能教育中的作用。然后,我们介绍了教育大型语言模型的当前发展情况,并比较了我们的调查与之前的工作。

2.1 教育任务

人工智能可以显著推动在线教育的发展。开发一个智能教育系统涉及到解决各种任务,这些任务可以广泛地分为两类。第一类围绕解决学生个性化、基于知识的问题(Zhou等人,2023a;Yu等人,2023;Yasunaga等人,2021)。这一类旨在帮助学生在学习过程中解决他们的疑问,例如澄清对特定概念的误解(Lazaridou等人,2022),解决一个数学问题(Wang等人,2017;Gou等人,2023;Xiong等人,2023),或编写一段代码来解决特定问题(Chen等人,2022b;Roziere等人,2023;Zhang等人,2023a)。第二类侧重于帮助学生进行学习规划,例如规划学习路径(Li等人,2023b;Chen等人,2023),知识追踪(Abdelrahman等人,2023;Piech等人,2015;Corbett和Anderson,1994),以及计算机化自适应测试(Ghosh和Lan,2021;Meijer和Nering,1999;Thompson和Weiss,2019)。这些任务旨在从更广泛的角度支持学习过程,而不是解决学生面临的具体学习挑战。

在本文中,我们主要调查前一类,主要发展LLMs回答需要特定技能的学生具体问题的能力,因为这是LLMs可以贡献更多的主要场景。前一种场景是LLMs目前发挥重要作用的地方,主要有两个原因:1)从任务特性的角度来看,像设计学习路径和追踪知识这样的任务,虽然也指导学生学习,但主要是基于学生的学习序列。推理过程大多在后台发生,对话需求相对较少。2)从LLMs的特性来看,语言模型相对于传统推荐模型的优势在于它们广泛的世界知识、对话能力和逻辑推理能力。这些能力对于解决学生遇到的个性化和学科特定的问题至关重要。这些问题通常复杂且个性化,需要对话才能有效理解——这是以前的深度学习模型所不具备的特点。然而,对于像学习路径规划和知识追踪这样的问题,深度学习模型通过训练可以很好地处理它们(Piech等人,2015;Li等人,2023b;Ghosh和Lan,2021)。

2.2 教育大型语言模型

目前,许多在线教育公司已经推出了自己的大型教育模型(iFLYTEK, 2024; Group, 2024)。由科大讯飞公司推出的讯飞Spark(iFLYTEK, 2024),拥有多模态交互、编程、文本生成、解决数学问题和知识问答等能力。LLMs的引入显然可以提高学习者的效率(Kazemitabaar等人,2024)。好未来集团开发的MathGPT(Group, 2024)是一个专门解决数学问题和讲授的LLM。从这些公司的发展模式来看,这些大型模型的主要应用场景是解决学生的具体知识问题。这种方法在两个主要方面对行业有利:1)它允许与学生进行更多的互动。回答有关学科或知识点的具体问题,比学习路径规划和知识追踪更深入地参与学生的学习过程,从而增加学生在平台上的时间。2)解决学生问题使模型显得更智能。规划学习路径和评估学生可以通过传统模型实现,但通过对话理解和解决学生问题是只有大型模型才能做到的,使平台的产品更智能。总之,因为它们更好地保留学生用户并使他们的产品更智能,平台开发教育大型模型的主要趋势是使它们能够解决学生的具体问题。当然,学习路径规划和知识追踪等问题也非常重要,但在大型模型时代,它们的转型需要进一步探索。

2.3 相关调查

LLMs在教育领域拥有巨大的潜力。关于LLMs在教育中的应用,已经有若干调查,而我们的工作与它们不同。Gan等人(2023)探讨了LLMs在教育过程中可以扮演的各种角色。它侧重于从不同应用场景的角度分析LLMs承担的角色,如学习支持工具、个性化学习体验、内容创建和生成、语言学习和教学、跨语言交流和翻译。它没有讨论LLMs的基本能力。Kasneci等人(2023)从学生和教师的角度探讨了LLMs在教育中的优势和挑战,突出了LLMs在研究、写作和解决问题任务中的潜力,以及它们为专业学习提供特定领域语言技能的能力。

除此之外,AL-Smadi(2023)主要探讨了生成性AI模型在教育中的应用,侧重于它们作为教学辅助工具的应用、个性化学习材料的生成以及学生学习成果的评估。它主要从教育的角度,以定性而非定量的方式,评估ChatGPT在教学设计等任务上的表现。Meyer等人(2023)是关于LLMs在学术界的机会和挑战的社论,从学术写作、教育和编程教育的角度分析了LLMs的潜在影响和风险。他们主要从教育学的角度讨论了LLMs在教育中的作用,而我们的工作则倾向于从技术角度分析LLMs在解决教育过程中特定学科问题的能力,为创建一个能够解决各个学科问题的LLM提供思路和见解。Wang等人(2024)从数据和技术的角度总结了LLMs在教育中的发展,讨论了LLMs在辅助学习、辅助教学和自适应学习等任务中的当前应用。需要注意的是,尽管文章提到了一些开发LLMs在辅助学习中解决问题能力的技术方法,但内容并不系统。解决学生问题的技术发展在这篇文章中并没有占据太多篇幅。此外,文章探讨的学科不是基础学科,而是包括医学和金融等高级学科。相比之下,我们的工作主要集中于讨论LLMs在帮助学生解决各种问题的基本能力的发展。

虽然以前的调查为LLMs在教育中的潜在应用提供了充分的讨论,但它们存在两个主要的不足之处:1)它们对LLMs在教育中的应用的探索通常涉及广泛的主题,包括设计学习路径、协助教师和规划课程。如第2.1节所讨论的,尽管这些能力很重要,但它们并不代表当前教育LLMs实际应用的主要方向。相比之下,我们的工作主要关注LLMs回答特定学科问题的能力。2)它们没有从技术角度分析LLMs的教育能力的发展。从技术角度讨论LLMs教育能力的发展对于构建一个通用的基于LLM的智能教育系统至关重要。与它们不同,我们从教育相关能力的角度回顾了LLMs的演变。我们总结了促进这些能力中LLMs发展的技术。此外,我们提供了构建可行的基于LLM的教育系统的框架的前瞻性见解。我们的工作强调了对LLMs教育能力的全面理解,并探索了能够有效将这些能力整合到教育领域的框架。

3. 基础能力

3.1 数学

数学要求对复杂信息进行推理,使其成为对认知能力要求最高的学科之一。在增强LLMs的数学能力方面有着显著的学术兴趣(Lu等人,2022b)。在基于LLMs创建教育系统的追求中,目标是使其具备解决各种数学问题的能力。这些问题可能包括基本的数值计算、复杂的逻辑推理,或需要整合来自多种模态的信息的挑战。在本节中,我们总结了LLMs数学能力的发展,重点关注四个方面:基础数值计算、复杂推理、处理多模态问题解决以及数学证明。

3.1.1 基础算术问题

最近,学术界对提高LLMs在这一领域的熟练度给予了极大的关注(Patel等人,2021;Wang等人,2017;Zhang等人,2023b;Geva等人,2020)。在人类学习数学的过程中,基础数学运算是解决更高级问题的基础。鉴于LLMs对人类语言的强大理解力和显著的文本推理能力,许多人很自然地认为LLMs应该能够轻松处理基础数学问题。然而,现实情况却并非如此。Yuan等人(2023)指出,ChatGPT和GPT-4(Achiam等人,2023)在加法和减法运算中表现良好,但在处理涉及较大数值的乘法时准确性会下降。这种限制是因为LLMs在计算过程中不使用计算器。更重要的是,当LLMs解决计算问题时,它们的内部逻辑并不执行实际计算。相反,它们生成文本来逐步预测答案的每个数字。这种方法意味着,随着答案中数字数量的增加,出错的可能性会累积性增长。

这个问题并非无解。Yang等人(2023a)和Liu和Low(2023)提议在高质量数据集上微调LLMs,并发现即使是小型语言模型也能避免在多位数问题上犯错误。Lee等人(2023)发现,只要在具有详细计算过程的数据上训练,即使是小型变换器也能以高准确度解决算术问题。总之,基于高质量数据的微调是一种可行的解决方案。然而,这种方法可能仅在需要构建专门的算术模型时有效,而不适用于构建通用LLMs,因为不可能对每个LLM单独进行微调。如何在LLMs的预训练阶段防止此类问题仍然是一个开放性问题。在当前阶段,一个简单可行的解决方案是让LLMs将算术问题外包给计算器,这可以确保计算的准确性(Schick等人,2024)。

3.1.2 具有挑战性的数学问题

尽管在基础数学运算中偶尔会出现错误,但人们对LLMs解决更复杂问题寄予厚望,LLMs在这一领域的能力仍在发展中。对于教育来说,能够处理大学级数学问题的能力对高年级学生的学习尤为有益,为理解具有挑战性的概念提供了极大的帮助。对于简单的算术问题,LLMs之所以会犯错误,主要是因为文本生成和数字计算之间的差距。对于复杂的数学问题,挑战在于需要LLMs的高级符号推理能力和领域知识。在这方面,LLMs仍需要进一步发展。Wang等人(2023a)介绍了一个基准SCIBENCH,其中包含来自数学、化学和物理教科书的大学级科学问题,而GPT-4在数学部分的平均正确率仅为53.24%。此外,Sawada等人(2023)收集了一个更难的数据集ARB,包含来自哈佛大学数学博士综合考试的数学问题,GPT-4的正确率不到10%。所有这些结果表明,LLMs有很大的改进空间。

近年来,越来越多的工作被提出来增强这种能力(Luo等人,2023a;Yu等人,2023;Lewkowycz等人,2022;Wang等人,2023a)。Luo等人(2023a)尝试通过在复杂数学数据集上应用Evol-Instruct反馈的强化学习(RLEIF)来提高Llama-2的数学推理能力。Evol-Instruct方法使LLMs能够从原始问题生成更简单和更难的问题,使LLMs深入思考。除了在高质量数据集上训练外,还有许多努力尝试利用编程作为外部工具来协助解决数学问题。Zhou等人(2023a)尝试通过鼓励GPT-4使用代码自我验证其答案来增强其数学能力。这种方法显著提高了数学问题解决的零样本准确率。ToRA(Gou等人,2023)将LLMs解决数学问题的过程划分为循环的推理-行动过程,其中行动涉及调用外部工具,包括计算库和符号求解器,从而将语言的分析能力与工具的计算效率结合起来。总的来说,解决复杂的数学问题需要推理能力、计算能力和数学领域的知识。在相关数据集上的微调主要旨在提高其推理能力和对相关问题的知识,而计算能力可以通过调用外部工具如计算器或代码编译器来补充。

3.1.3 涉及多模态信息的问题

多模态输入在数学问题中很常见,如几何问题。它们要求LLMs理解文本和图像信息以求解。关于数学推理的多模态LLMs的研究正在兴起(Lu等人,2023;Chen等人,2022a;Peng等人,2023a)。这类任务对训练数据的形成和质量要求很高。Chen等人(2022a)引入了一个统一的几何问题基准,结合了计算和证明任务。基于这个数据集,研究提出了一个框架,能够通过序列生成方法同时解决计算和证明任务。此外,Lu等人(2023)提出了MATHVISTA,一个针对多样化数学和视觉挑战的基准。Zhang等人(2024)开发了一个基准GeoEval,用于测试LLMs解决几何问题的能力。他们的结果显示,WizardMath和GPT-4V在处理多模态数学问题方面表现出色。

针对这项任务提出了各种方法。对于几何问题,Zhang等人(2023a)将图表转换为文本条款,使用卷积神经网络和语言模型进行编码,使用基于GRU的框架生成答案。Gao等人(2023)认为,当前模型在解决几何问题上失败的原因是它们难以准确理解基本几何元素及其关系。因此,他们构建了一个增强型数据集Geo170K,包含高质量的几何信息描述,并在其上开发了一个模型G-LLaVA,该模型在解决几何问题上表现出色,在只有7B参数的情况下,在MathVista基准测试中显著优于GPT-4-V。

除了涉及处理图像和文本的几何问题外,Lu等人(2022a)还提出了需要文本和表格数据推理的Tabular Math Word Problems(TABWP)数据集,并引入了PROMPTPG,这是一种基于策略梯度的选择器,用于训练和为测试样本构建提示。

3.1.4 数学证明

与其他类型的数学问题不同,LLMs在数学证明中的主要作用是与证明助手(如Coq、Isabelle和Lean)集成。这些证明助手对应特定的编程语言,要求用户用所需语言制定证明,然后助手可以验证证明的正确性。许多基于LLM的方法被提出来帮助定理证明。基于这些证明助手,使用LLMs进行数学证明主要有两大方法。

第一种方法是形式化证明搜索,以GPT-f模型为例,它通过提示LLMs根据当前证明状态和一些可选上下文产生下一个证明步骤(在证明助手中也称为“策略”)。结合证明助手,它将数学命题的证明转化为执行动作的过程。在这里,一个动作可以是应用数学定理或变量替换方法,它可以转换和分解原始命题。LLM负责生成动作,在每一轮中采样多个动作,并通过多轮迭代产生树状结构。它利用证明助手的功能来验证证明的有效性,以评估分支,从而采用树搜索方法来找到证明策略。继GPT-f之后,Thor被进一步提出以帮助选择定理证明的前提。Yang等人(2023b)介绍了一个基于Lean证明助手的开源框架LeanDojo。该框架包括数据、工具包、模型和基准测试,并促成了ReProver(检索增强证明器)的发展,它通过使用检索方法提取前提来增强证明的准确性,为LLMs提供了数学证明的基础。

第二种是自然证明翻译,也称为自动形式化,它将用自然语言写成的数学证明转换为形式化版本。在这些方案中,LLMs的责任不是生成证明步骤。由于这些证明助手在人类语料库中的极低普及率,LLMs难以直接承担生成证明步骤的任务。这种方法主要解决了形式化数学证明数据不足的挑战。通过利用自动形式化,可以大幅增加这类数据,从而增强在扩大数据集上微调的神经证明器的证明生成能力。最初,Wu等人(2022)展示了LLMs在自动形式化中的出色表现。他们利用LLMs进行自动形式化,将用自然语言表达的数学证明和问题转换为Isabelle语言的形式规范和证明。生成的数据用于训练神经定理证明器,提高了原始证明器的有效性。随后,Cunningham等人(2023)利用基于通用变换器架构的编码器-解码器框架,将用LaTeX写成的问题陈述和数学证明转换为Coq交互式证明助手的语言。Jiang等人(2022c)构建了一个草稿、草图、证明(DSP)的流水线,其中非正式和不完整的证明首先生成(草稿),然后交给LLMs进行自动形式化(草图),最后传递给现成的证明器来完成(证明)。

在数学教育中,证明问题不可或缺。目前,数学证明的LLMs主要以交互式定理证明的形式运作。在这种方法中,LLMs通过与软件证明助手交互来完成证明。要实现LLMs的完全自动化定理证明,这些模型不仅需要具备强大的推理能力,还需要有效地形式化概念的能力。在数学证明中没有幻觉的余地,这对LLMs来说是一个巨大的挑战。

3.1.5 总结

在检查大型语言模型(LLMs)在数学能力方面的进展时,很明显主要障碍在于数学逻辑原则与文本生成原则之间的内在冲突。这种差异不仅表现在结果上(例如,LLMs在涉及大数字的乘法上遇到困难,在复杂的数学问题上挣扎),而且也表现在训练数据本身。数学问题在其符号形式上,只占这些庞大模型训练语料库的一小部分。因此,目前增强LLMs数学能力的方法大致可以分为两种主要策略:1)数据增强:提高LLMs在数学任务上性能的最直接方法是在训练的微调阶段为它们提供高质量、相关的数据。通过让模型接触到更全面、更具代表性的数学问题集,它们处理这类挑战的能力可以显著提高。2)工具集成:另一种有效方法是利用外部工具,如计算器和代码编译器,来弥补LLMs的固有限制。通过在模型遇到困难的点上策略性地调用这些工具,它们的功能缺陷可以有效地减轻,允许更全面、准确地处理数学问题。

3.2 写作

写作能力对LLMs至关重要,它们深入理解输入并产生语义和句法准确的输出的基础(Dong等人,2022;Chang等人,2023)。在教育中,LLMs的写作能力有潜力改变写作教学的方式。它们可以协助内容创作,为学生简化复杂主题,并提供个性化的教育材料。在这一部分,我们将深入探讨LLMs在两个与教育相关的任务上的写作能力:文本摘要和语法错误纠正。

3.2.1 文本摘要

文本摘要是一项要求LLMs将长文本压缩成简洁摘要的任务,同时保留关键信息。这个过程对LLMs来说是一个重大挑战,因为它们必须有效地理解并从各种不同内容(如新闻文章和用多种语言写成的文本)中提炼关键点。在教育背景下,学生经常面临大量的复杂学习材料。精心制作的摘要在帮助他们快速有效地掌握核心概念方面非常有价值,节省了他们大量的时间和精力。例如,摘要可以将复杂的代码分解为其基本组成部分,使学生更容易理解其结构和功能。同样,摘要可以突出长篇章节的主要思想和关键要点,让学生集中关注最关键信息,而不会陷入细节。显然,随着先进的LLMs的出现,传统的微调方法变得不那么有效(Pu等人,2023;Liu等人,2022b)。Pu等人(2023)和Liang等人(2022)表明,像ChatGPT这样的LLMs最初在文本摘要的ROUGE分数上落后于像T5和BART这样的微调模型。然而,当人类评委评估整体质量时,LLMs超越了微调模型甚至标准人类摘要,在事实一致性、流畅度和多样性等方面表现更优。这一发现强调了传统评估方法的局限性,并表明需要新的范式来指导LLM时代的摘要任务。例如,BRIO实施了一个排名任务以促进更多样化的摘要。此外,Liu等人(2023c)使用基于BRIO的GPT模型直接生成训练数据来指导其他模型的学习过程,这与RLHF的过程类似。

鉴于LLMs在文本摘要领域的出色表现,研究人员已经开始着手解决更具挑战性的任务。Liu等人(2023b)在指令可控文本摘要上对LLMs进行了基准测试。在这个任务中,提供给模型的输入由两部分组成:需要摘要的源文章和一组用自然语言指定摘要输出所需特征的指令。目标是评估LLMs生成符合这些特定要求的摘要的能力。在一项相关研究中,Shen等人(2023)调查了LLMs是否有可能取代人类评估者,评估抽象摘要的质量。抽象摘要涉及生成一个摘要,捕捉源文本的主要思想,同时可能使用不同的单词和短语。研究人员发现,目前LLMs还无法在这个任务中作为人类评估者的可靠替代品。LLM评估者对每个候选系统的评分不一致,并且依赖于维度。此外,LLMs在比较表现相似的候选摘要时面临挑战。它们发现很难对质量相近的摘要进行细粒度区分,这限制了它们提供准确比较评估的能力。当处理更高质量的摘要时,LLMs提供的评分与人类评估者给出的评分之间的相关性会降低。尽管LLMs在文本摘要任务中可以超越人类,但它们并非没有缺陷。当前的LLMs犯的愚蠢错误较少(例如,实体混淆、生成无关信息),但更精致的错误较多(Pu等人,2023)。例如,它们填补了与源文本相关但不是直接支持的细节,这是一种“幻觉”。Liu等人(2022a)尝试利用人类反馈增强摘要的事实一致性。他们构建的数据集DeFacto包含了人类演示和信息性自然语言反馈,包括校正指令、编辑摘要和与摘要事实一致性相关的解释。Feng等人(2023a)尝试通过分离LLMs的理解和修饰能力来解决这种幻觉问题。它训练修饰与原始文本中呈现的事实一致。

总体而言,LLMs在文本摘要任务中表现良好,甚至在简单摘要中超越了人类,但这并不意味着它们无懈可击。在教育领域,帮助学生总结学习材料应确保摘要与原始内容之间没有冲突。LLMs在这方面仍然面临幻觉问题。虽然这些幻觉问题可以通过后处理技术来缓解,但幻觉问题仍然是LLMs的一个根本问题,超出了文本摘要任务的范围。解决LLMs中的幻觉问题是一个持续的研究挑战,需要进一步调查和开发新方法。在找到令人满意的解决方案之前,在使用LLM生成的摘要的教育环境中,重要的是要谨慎行事,并有机制来验证摘要与原始学习材料的准确性和一致性。

3.2.2 语法错误纠正

我们非常清楚LLMs生成流畅且连贯对话的卓越能力。然而,从教育的角度来看,尤其是对于学习新语言的学生来说,产生语法正确的对话的重要性怎么强调都不为过。对话中的语法正确性在语言习得中起着至关重要的作用,为学生提供了可靠的示例来模仿和学习。许多研究已经评估了LLMs在语法错误纠正(GEC)方面的有效性。一些工作(Wu等人,2023;Fang等人,2023;Mohammed等人,2023)首先评估了像ChatGPT这样的闭源LLMs的错误纠正性能。尽管在整体F0.5指标上,ChatGPT与之前的最先进模型(Omelianchuk等人,2020;Grammarly,2023)存在明显差距,但更详细的分析表明,ChatGPT在精确度方面表现不如其他模型,但在召回率方面远远超过其他模型。也就是说,像ChatGPT这样的LLMs擅长错误检测。对ChatGPT输出的详细手动分析显示,在大多数情况下,它比之前的方法更好地保持了语法准确性。然而,它经常过度纠正句子以增加多样性和流畅性,导致召回率下降。由于这一特点,当在评估修改文本的流畅性等更高阶指标时,LLMs表现更好。然而,对于需要最小编辑修正的问题,它们可能不一定优于传统模型。一些努力尝试通过使用指令调整技术来缓解大型模型过度校正的问题,鼓励它们只进行必要的修正,如CoEdit(Raheja等人,2023),它涵盖了多种文本编辑任务(包括GEC),通过微调LLMs来整合这些任务带来的能力。GrammarGPT(Fan等人,2023)收集了语法错误的句子,并对LLMs进行了指令调整,以提高定位语法错误的能力。

总体而言,LLMs在GEC领域表现良好,其主要问题是过度校正。在如文案撰写或文章撰写等场景中,这个问题不严重,因为LLMs可以在帮助人们纠正语法错误的同时,协助他们撰写更流畅的句子。然而,在教育环境中,LLMs的GEC能力更常用于帮助学生学习语法。这要求LLMs准确识别句子中的语法错误。过度校正的问题可能会误导学生,需要进一步调整。

3.2.3 总结

利用LLMs在文本摘要和语法错误纠正方面的熟练程度可以显著惠及教育。它们将复杂材料压缩成简洁摘要的能力有助于高效学习,而错误纠正工具有助于提高学生的写作和语言技能。然而,要将这些与写作相关的能力整合到教育中,需要解决关键挑战。显然,更精细的评估指标和特定任务的优化对LLMs至关重要。

3.3 编程

编程是编写代码并纠正代码以获得预期结果的过程。将LLMs整合到编程教育中正在重塑AI辅助编程学习的未来。LLMs可以扮演多种角色:作为提供指导的教师,作为提供个性化辅导的教学助手,以及作为协作编码伙伴。像Ma等人(2023b)这样的研究表明,使用基于LLM的助手的编程新手在性能上提高了17%,在效率上提高了13%。Phung等人(2023)的研究集中在编程教育任务和基准上,像Fu等人(2023)和Ding等人(2023)的工作被用来评估LLMs的有效性。本节主要从两个角度讨论LLMs编码能力的发展:代码编写和代码优化,对应于编程中的两个阶段。

3.3.1 代码编写

与自然语言任务不同,生成代码需要更严格的标记语法,并对训练阶段提出更高的要求。提高LLMs生成代码性能的常见方法是在大量的代码数据集上训练或微调它们(Chen等人,2021a;Nijkamp等人,2023)。WizardCoder(Luo等人,2023b)引入了Evol-Instruct(Xu等人,2023)方法来生成复杂多样的代码相关任务指令数据集。为了模拟人类反复修改和审查代码的迭代过程,InCoder(Fried等人,2023)采用了双向编码而不是从左到右的编码。除了下一个标记预测外,在其他代码相关任务上训练或微调以代码为目标的LLMs可以增强它们的编程能力。LLMs首先通过无监督学习从大量文本数据中学习语言模式和表示。然后,它们可以在标记的代码任务上进行微调,使它们能够学习目标代码表示,并基于提供的标签深入理解代码结构和语义。CodeT5+(Wang等人,2023b)引入了单模态和双模态对齐的概念,增加了模型适应不同模式进行各种下游任务的适应性。在双模态对齐阶段,模型使用多个任务同步文本-代码对的表示,这提高了它理解和生成不同模态内容的能力。CodeLlama(Rozière等人,2023)也应用了多任务目标,包括自回归和因果填充预测,在开放模型中取得了更好的性能。MFTCoder(Liu等人,2023a)采用了多任务学习(MTL)技术,并整合了一个训练损失计算算法,以缓解多任务训练的不稳定性和不平衡性。鉴于代码文本与自然语言文本相比具有其独特的语法和结构,上述方法都试图构建代码数据集并进行微调。这是提高LLMs编码能力的最直接和有效的方法。

通过对代码数据集进行微调,LLMs可以提高生成正确代码片段的概率。考虑到人类的编程过程,除了依赖程序员的编码技能外,还涉及咨询文档、设计代码框架、实现和测试子模块等多个阶段,这些阶段涉及众多决策过程。因此,许多研究将LLMs视为代理,将编码过程视为一系列连续的决策和外部工具调用。Zhang等人(2023a)尝试通过使用树搜索方法来提高模型代码生成的有效性,而无需更改LLM本身的参数。具体来说,代码中的每个标记被视为一个动作,生成的代码作为状态。LLM逐步做出决策,同时使用蒙特卡洛树搜索(MCTS)计算当前状态下每个动作(标记)的价值,从而选择最优动作,并显著提高其在代码生成中的通过率。同样,Zhou等人(2023b)也将LLM视为代理,其中每个动作涉及生成一个完整的代码片段。它也使用MCTS来估计每个动作的价值。Shinn等人(2024)引入了Reflexion框架,通过语言反馈增强LLM代理。该方法将LLM分配为生成代码的演员角色和评估代码的评估者角色。此外,它利用自我反思生成口头强化提示,旨在帮助演员自我改进。Zhou等人(2022a)引入了一个文档检索器作为代码生成器的前驱,从文档中提取相关的功能描述,为LLM提供外部信息。这使得生成的代码能够利用最新的库函数。通过将LLM视为代理,并利用外部文档或树搜索算法,可以在不需要更新模型参数的情况下提高代理决策的准确性,从而降低训练成本。然而,这种方法也有一个缺点:它增加了代码生成过程中决策所需的时间,导致与单独使用LLM相比,推理效率降低。

除了单一代理方法外,多代理系统在代码生成任务中也取得了显著进展。Qian等人(2023)开发了ChatDev,它将编写代码的过程分为设计、编码、测试和文档编制四个阶段。每个阶段由一组“软件代理”管理,整个聊天链充当协调者,为每个阶段分配特定子任务。系统实现了高效的代码编写。此外,Hong等人(2023)提出了MetaGPT,这是一个多代理编码系统,为不同代理分配了不同的角色,如产品经理、架构师、工程师等。他们将标准操作程序(SOPs)引入提示序列,有效提高了代码生成的有效性。尽管基于聊天的多代理系统在代码生成任务中显示出显著的有效性,但由于需要代理之间的对话协调,它们对LLMs的基本能力提出了很高的要求。这些系统的有效性通常随着LLMs参数大小和能力的提高而提高。

3.3.2 代码优化

在大多数情况下,LLMs无法一次性生成正确的代码。我们可以启用LLMs生成代码草图(实际代码或伪代码),并利用各种方法指导模型修改和优化代码。通过利用LLMs固有的代码校正能力,可以显著提高代码的整体精度和质量。

我们从两个角度研究LLMs在代码优化方面的发展。一个方面是LLMs在修复代码漏洞任务方面的进步,即自动化程序修复(APR)。Sobania等人(2023)进行了实验,分析了ChatGPT在APR任务上的表现。他们发现,与以前的基于深度学习的方法相比,它能够取得有竞争力的结果,并通过对话整合额外信息可以超越以前的方法。Xia和Zhang(2023)引入了会话APR,使LLMs能够通过对话获得漏洞反馈,有效提高了各种LLMs在APR中的性能。除了APR任务本身外,第二个方面涉及将代码优化集成到代码生成过程中,利用漏洞反馈提高代码生成的有效性。Liventsev等人(2023)构建了一个管道:合成、执行、指导、调试和排名(SEIDR)。它首先生成多个不同的代码,并经历代码过滤和调试的过程,最终从中选择最佳代码。根据Magister等人(2022)的说法,通过少量示例教LLM调试其程序草图可以提高代码生成任务的性能。另一种LLM调试方法是LLM自己生成单元测试并检查其代码(Chen等人,2022b)。通过模仿人类编码过程,LLM的编程能力得到了极大的增强。然而,这些方法导致对LLMs的调用次数增加,导致推理时间大幅增加。

在编码教育的背景下,LLMs提供的支持和指导尚未达到人类教师所提供的协助水平。造成这一差距的主要原因之一是LLMs在编码能力上仍有待提高。虽然LLMs可以为相对简单的任务生成功能性代码,但在生成复杂算法时,与人类实现的功能相比,LLMs的性能迅速下降(Chen等人,2021b)。此外,由于缺乏现实世界数据,LLMs难以学习编码的中间思维过程,使它们难以为初学者提供相关的解释和指导。因此,LLMs在编程教育中的使用仍需改进,特别是在可解释性方面。

3.3.3 总结

与数学数据相比,代码数据在LLMs的训练语料库中更为丰富。这主要是因为编码的固有特性,它严重依赖计算机和互联网。由于LLMs是使用从网络抓取的数据进行训练的,它们在训练过程中接触到了大量的代码相关信息。许多对LLMs代码生成能力的提升都是受到人类编程过程的启发。例如,程序员经常参考文档和资源,以更好地理解问题和潜在解决方案。对于复杂的编码任务,解决过程通常涉及设计、编写和调试的循环。这些思维过程可以用来提高LLMs的编程有效性。从教育的角度来看,对LLMs来说,不仅要生成正确的代码,而且要具备分析和反馈学生编写的代码的能力至关重要。这包括识别问题、提出改进建议,并提供帮助学生学习和成长的解释。

3.4 推理

LLMs的推理能力为教育用途提供了巨大的潜力,作为先进的工具,它们增强了学生的认知过程,提供了个性化的辅导,并提供了量身定制的学习支持。本节回顾了LLMs通用推理能力发展策略。

3.4.1 为推理进行监督微调

以往的研究主要集中在完全监督的微调LLMs上,以增强它们的推理能力。这种方法将模型输出与标记数据集紧密对齐,允许模型在特定领域内产生高度准确的预测。Rajani等人(2019)的一项研究表明了微调预训练GPT模型的有效性,该模型为CoS-E数据集(Talmor等人,2018)上的预测生成了理由。结果显示,接受解释训练的模型在常识问答任务中的性能有所提高。然而,微调方法的有效性在很大程度上依赖于包含明确推理步骤的特定数据集的可用性。获取这样的数据集可能证明是具有挑战性的。此外,微调模型的推理范围限于数据集的领域,很大程度上取决于数据的推理质量。这个限制突出了完全监督微调的优点和局限性,因为它将模型的推理能力限制在数据集的特定领域。因此,它强调了探索利用LLMs内在推理能力的方法的必要性,这些方法可能提供更广泛的相关性和超越特定领域数据集限制的更深入的见解。

3.4.2 推理的提示工程

最近的研究努力解决LLMs微调过程中固有的约束。这些微调方法往往会过度拟合特定数据集的分布,降低了它们在更多样化数据集上的有效性。为了应对这个问题,提出了多种策略。这些策略旨在利用LLMs通过其大量预训练参数所固有的强大推理能力。一种方法是通过演示或提示引导LLMs生成推理和推理。例如,Wei等人(2022)介绍了“思维链”(CoT)方法,该方法使用自然语言推理步骤作为模型的提示。通过将CoT整合到少次提示框架中,模型利用其广泛的参数产生类似的推理链。因此,这种方法使模型能够熟练地应对不同领域的复杂推理任务,无需额外的训练或微调。这一创新强调了模型生成演绎路径的固有能力,显著增强了其在解决问题场景中的适用性和多功能性,而无需广泛的特定领域适应。同样,Wang等人(2022)介绍了一种自我一致性策略,通过采样各种推理路径并选择最一致的答案来增强模型性能。这种方法多样化了推理策略的探索。它确保了结论的可靠性,展示了一种创新的方式来利用模型的能力,以改进不同情境中的决策和问题解决。面对依赖静态、手动注释的示例的限制,这可能会限制LLMs适应现实世界任务复杂性的变化,Diao等人(2023)引入了一种主动选择方法。这种技术动态地从广泛的查询集中找出与特定任务需求最相关的示例。通过这种方式,该方法增强了LLMs适应多样化和不断发展的问题环境的灵活性和有效性。同时,Zhou等人(2022b)设计了一种提示方法,将复杂问题分解为更简单的组成部分。这种策略不仅促进了分步解决问题的过程,而且有望增强LLMs处理复杂任务的有效性。

在CoT方法的基础上,随后的发展引入了更复杂的框架,以增强LLMs的推理能力。思维树(ToT)(Yao等人,2024)框架通过层次结构使LLMs能够探索多个推理路径,从而改善需要战略规划的任务的决策制定。在ToT之后,思维提升(BoT)(Chen等人,2024)框架通过迭代探索和自我评估多个思维树,引入了一种新方法。这个过程积累了一系列试错推理经验,提供了一种新形式的提示,旨在解决复杂问题。从简单的提示开始,BoT通过错误分析迭代地改进推理步骤,显著提高了生成推理路径的能力,并在复杂任务上比现有的高级提示策略实现了更高的问题解决率。GoT框架(Besta等人,2023)通过将LLMs生成的思维排列成图结构,不依赖微调,为通过提示结构化思维提供了一个新角度。这种设置促进了不同思维单元之间的动态交互,有助于综合协同结果,简化复杂的思维网络,并通过反馈机制提炼观点。GoT的基于图的方法为解决问题提供了一种多功能工具,允许更细腻、更相互联系的推理过程,反映了人类思维的复杂性。

CoT的出现及相关提示策略标志着利用LLMs进行高级推理的显著发展,从依赖微调转变为利用LLMs的内在能力来提高其在各种任务中的灵活性和有效性。

3.4.3 推理的混合方法

尽管提示工程在利用LLMs的内在特性和能力来提高其性能方面取得了成功,但这种方法并没有从根本上增强模型的核心推理能力,因为它没有改变模型的底层参数。这一固有限制表明需要策略,不仅要利用LLMs的现有优势,还要寻求扩展它们的内在能力。已经开发了将微调的特异性与提示工程的灵活性相结合的创新方法来弥合这一差距。这些混合方法旨在增强LLMs对复杂提示的响应能力,并大幅提高它们固有的推理能力,更全面地增强它们的解决问题的能力。一种实用的方法是由LLMs“教授”较小模型尺寸的语言模型。Ho等人(2022);Magister等人(2022)探索了在由较大的教师模型生成的思维链输出上微调学生模型,并证明了通过在微调数据中加入如此多样化的推理结果,即使是非常小的模型也能在数据集上实现显著的性能提升。此外,Zelikman等人(2022)报告说,通过生成逐步理由并基于正确答案微调模型,通过促进模型从其推理中学习,实现了多个数据集的显著性能提升。同样,Huang等人(2022)提出,通过使用思维链提示(Wei等人,2022)和自我一致性(Wang等人,2022)生成理由增强的答案,然后使用这些答案进行微调,LLMs独立地改进了它们的推理能力。这种方法突出了LLMs独立推进它们的知识和问题解决技能的显著能力。

3.4.4 总结

在教育领域,推理任务具有独特的特点,不仅需要准确处理信息,还需要能够以对学习者易于理解和教育的方式导航和阐释复杂概念。如上所述,讨论的方法显著提高了LLMs的推理能力,最佳地利用了它们独特的特性来进行多样化的推理任务。这种增强可以大大惠及教育应用。然而,认识到局限性至关重要。正如Valmeekam等人(2022)和Ruis等人(2022)所强调的,LLMs在复杂推理任务和需要隐式表达的任务中存在困难。例如,LLMs可能在复杂的推理场景中挣扎,导致性能显著下降。这在教育环境中特别相关,因为LLMs模拟的错误问题解决可能会误导学生,导致误解或错误的理解。因此,尽管LLMs具有巨大的教育潜力,但它们的局限性必须被仔细考虑,以确保它们促进而不是阻碍学习。

3.5 基于知识的问答

在使用LLM进行基于知识的问答(KBQA)的背景下,用户向LLM提出问题,LLM利用基于知识的方法并回答相应的答案。Ren等人(2023)的先前研究表明,LLMs对事实边界的感知不准确,经常表现出过度自信。许多研究已经探索并利用来自开放世界和特定领域数据库的外部知识来增强这些LLMs的知识库。

3.5.1 开放域问答(Open-domain QA)

开放域问答要求LLMs准确判断开放世界中的信息可靠性,并基于此理解制定回答。开放域问答的关键要求是实时响应和真实性。LLMs在这两个方面都存在劣势。由于模型参数固定,仅通过LLM本身确保实时信息具有挑战性,而且LLMs通常存在严重的幻觉问题(Xu等人,2024),这对它们的真实性构成挑战。Jiang等人(2021)从校准的角度评估了LLM对特定问题的响应准确性。通过实验,研究人员发现,T5、BERT和GPT-2等模型在问答任务中校准不佳。虽然建议将与校准相关的方法是纳入微调过程可以有效提升问答任务的性能,但显然仅凭预训练的语言模型在开放域任务中仍面临重大挑战。为了克服这一挑战,许多工作尝试添加额外信息以帮助LLMs正确回答(Khandelwal等人,2019;Guu等人,2020;Borgeaud等人,2022)。常用的信息来源是网络。Lazaridou等人(2022)利用从网络搜索收集的信息作为LLMs的提示输入,将其调整为生成问题的答案。这种方法有效地使LLMs能够使用开放世界的信息回答问题。Vu等人(2023)介绍了FreshPrompt,将从互联网收集的网页纳入给大型模型的提示中。这使他们能够在回答问题时利用最新信息。Kasai等人(2024)开发了一个每周更新的问答平台REALTIME QA。通过在该平台上的评估,他们发现GPT-3可以根据新检索到的文档更新其生成结果。然而,当检索到的文档未能提供足够的信息以找到答案时,GPT-3可能会提供过时的答案。

基于LLM的开放域问答的发展突显了重大挑战,特别是在处理幻觉问题方面。在建立基于LLM的教育系统的背景下,这个问题变得更加关键,因为提供看似正确但实际错误的答案可能会误导学生。从引入网络或教科书等来源的额外信息的方法中汲取洞见,可以为基于LLM的教育系统的开发提供宝贵的经验。

3.5.2 特定领域问答(Domain-specific QA)

尽管LLMs在大量语料库上受过训练,它们在理解特定领域时仍可能存在差距。LLMs在这项任务中面临的主要挑战是缺乏领域知识。对于特定领域的问题是,提供好的答案通常需要该领域的大量专业知识或技能,而专业数据在大规模模型的语料库中相对较少。一种直接的方法是在专门的数据集上对LLMs进行微调。通常,有专门的知识库用于整合特定领域的知识,如MedlinePlus1、GeeksforGeeks2等。Choi等人(2023)使用外部知识库生成了一系列问答对,然后采用微调将金融知识转移给LLMs,显著提升了金融问答任务。另一种常见方法是利用LLMs的上下文学习能力,通过将从知识库检索到的知识纳入提示中。Peng等人(2023b)在他们的病虫害识别工作中展示了这种方法。他们首先使用文本嵌入(即文本的密集向量表示)从知识库中检索相关信息。文本嵌入允许根据查询和存储信息之间的语义相似性,高效准确地检索相似或相关内容。一旦检索到相关知识,就将其纳入提供给LLMs的提示中。然后,LLMs利用其自动特征提取能力处理和理解检索到的信息,以完成病虫害识别任务。Zhang等人(2023)使用K-最近邻(KNN)(Guo等人,2003)从会计数据库中搜索最相似的K条记录,作为k-shot示例,大大提升了会计效率。还有一些工作是训练和改进检索器编码器(Zhang等人,2023b),以及蒸馏和提炼数据库中的数据(Jeronymo等人,2023)。这种检索框架成本较低,可以在不同领域的应用中更加灵活。Liu等人(2023d)提出了RETA-LLM,这是一个系统,利用基于Google搜索的信息检索系统最初检索与用户查询相关的前k个文档,允许LLMs根据这些检索到的文档生成答案。此外,该系统包括即插即用模块,使用户能够构建自己的特定领域LLMs。这些模块涵盖了各种功能,包括请求重写、文档检索、段落提取、答案生成和事实检查。

通过整合信息检索(IR)系统,LLMs可以增强其专业知识能力,获取有价值和精确的补充信息。此外,根据Ren等人(2023)的说法,检索增强也可以用于提高LLMs在其合法知识边界内感知事实的能力,减轻幻觉问题。在教育过程中,不同的专业或课程涉及不同的专业内容。将外部知识库作为增强机制应用,可以提供更准确的领域特定指导,并减轻误导信息造成的问题。因此,特定领域的问答能力对于开发基于LLM的教育系统至关重要。

3.5.3 总结

虽然LLMs通过大量语料库训练掌握了广泛的开放世界知识,但它们固定的参数使得处理实时、高需求的开放域问题具有挑战性。严重的幻觉问题进一步削弱了它们在开放域和特定领域查询中的准确性。在教育领域,真实性至关重要,学生可能会提出有关教科书知识点的问题。如果这些回答的准确性不能得到保证,就可能会误导学生。因此,解决基础LLMs固有幻觉问题的可行解决方案是整合外部信息,如权威文件,允许LLMs基于这些外部来源制定回答,以减轻幻觉问题。
在这里插入图片描述

图 3. 一个总结框架图,用于展示LLMs在发展与教育相关能力的方法。它将之前增强策略归类为三部分:输入数据优化、模型自我改进和外部工具使用。

3.6 讨论

尽管每种能力都有不同的背景和特定挑战,但在利用LLMs的能力进行教育目的的研究者之间,某些策略和见解普遍共鸣。这里我们讨论了我们在能力发展中发现的趋势或共性。

3.6.1 高质量数据可以帮助LLMs有效发展能力。

自从深度学习时代开始以来,高质量的训练数据显著提高了模型性能。对于LLMs来说尤其如此,这种方法超出了单纯的训练。通过上下文学习,期望的输入和输出被形成为示例,并作为提示提供给LLMs,如果示例选择得当,它们也可以大大增强模型的能力。

明显的趋势是利用在高质量数据上微调的小型模型超越大型语言模型的性能。这种方法强调了专注的、特定领域的训练的重要性,而不是简单地依赖大规模模型中的大量参数。这里的“高质量数据”是指为特定领域问题提供详细监督信号的数据。例如,即使是像GPT-4这样强大的LLMs在基础算术问题中的大数字乘法上也会遇到高错误率。然而,有了包含乘法和加法详细步骤的数据集,即使是小型的变换器模型也能有效地解决这些问题。同样,对于推理任务,通过将特定的推理步骤纳入提示中的示例,就可以在不改变模型参数的情况下提高LLMs在这些问题上的性能。这突出了“高质量数据”在LLMs中的应用不仅限于微调。

研究人员正在共同努力探索在某些LLMs已经超越人类基准的场景中,小型模型如何实现等效或更优的结果。这种追求反映了向优化计算效率和模型可扩展性的更广泛转变,确保LLM技术的进步保持可访问和可持续。训练小型模型的主要场景和目标可以划分为两类:

  • 使用高质量数据训练专业模型。对于特定、狭窄领域内的应用,如编程,通过数据收集开发小型专业模型,可以促进部署并减少推理所需的计算资源,还有其他好处。
  • 通过知识蒸馏训练小型模型。在应用所需的知识和技能更普遍的情况下,可能很难构建一个用于训练小型模型的特定数据集。通过学习匹配教师模型的输出,学生模型可以有效地吸收更大模型的知识和技能,无需特定的、策划过的数据集。这允许小型模型继承大型教师模型的泛化能力,同时在计算效率更高,更容易部署在资源受限的环境中。

效率是LLMs在训练和现实世界部署中不可避免的问题。就训练而言,像LoRA(Low-Rank Adaptation)(Hu等人,2021)这样的低损失、高效率训练方案不断被引入。这些可以显著减少微调期间所需的可训练参数数量。然而,仍然需要小型模型。在实际应用中,训练好的模型需要被部署并用于生成预测或输出,模型的大小仍然起着关键作用。

3.6.2 LLMs可以实现自我改进。

LLMs的推理能力和文本理解能力使它们能够方便地获得反馈,从而可以改进它们的输出。这个过程称为自我改进,是改进LLMs对所有能力答案的通用方法。LLMs可以通过一种系统化的方法实现自我改进,该方法涉及迭代细化和多重采样。例如,为了更好地响应查询,LLM可能首先生成一个初始输出。然后,它评估输出的有效性或准确性。利用多重采样,LLM探索不同的解决方案或创造性响应,这扩大了其潜在答案池。通过迭代细化,它比较、对比并整合这些可能性,学习哪种策略产生最佳结果。这可能涉及基于反馈循环调整参数的内部过程,其中它可能整合来自新示例或人类用户提供的更正的数据。随着时间的推移,这增强了LLM提供更精确、更丰富信息和上下文相关答案的能力,从而逐步改进其解决问题和内容创作技能。除了通过反馈单独增强能力外,各领域也在探索通过协调多个LLMs来改进整体输出的方法。例如,在解决编程问题时,该过程可以被分割成不同阶段,每个阶段由不同的LLM管理。这些LLMs沟通和协作,共同完成任务。或者,一个LLM可能充当生成器来产生答案,而另一个作为评估器提供反馈。通过两者之间的持续对话,可以持续评估和改进响应,从而提高答案质量。这种合作方法利用不同模型的优势,实现了更有效和复杂的解决问题机制。尽管自我改进方法有效,但通常会导致产生响应的时间更长。对于基于LLM的教育系统,向学生提供准确答案的重要性(避免误导他们)超过了速度需求。因此,采用多代理方法通过LLMs的协作提高答案质量,或使用采样和迭代优化进行自我改进,是开发教育系统的适当策略。这确保了系统优先考虑信息的正确性和可靠性,在教育环境中,学生的学习效果取决于所提供内容的准确性。

3.6.3 调用外部工具是一种普遍方法。

将外部工具整合到LLM框架中是一种广泛采用的方法。这一策略不仅增强了模型获取和整合实时信息和权威来源的能力,还减轻了LLMs的一些固有局限性,如倾向于事实不准确或幻觉。我们可以将LLMs使用外部工具的情况分为两个视角:

  • LLMs固有的某些局限性不能仅通过训练来解决,外部工具可以用来解决这些缺陷。在这种情况下,工具为LLMs服务。例如,LLMs在大数字乘法上的高错误率可以通过使用外部计算器轻松缓解。同样,LLMs无法访问实时信息可以通过通过Web API调用检索最新网页来弥补。
  • 利用LLMs的推理和决策能力,调用外部工具可以影响现实世界。在这种方法中,LLMs的主要任务是做出明智的决策,确定何时以及使用哪些工具来完成特定任务。在这种方法中,LLMs的主要责任是充当智能代理,能够分析给定情况,了解需求和限制,并确定最合适的行动方案。

通过调用外部工具解决问题的LLM是一种类型的LLM代理,其中外部工具不一定是API,也可以是专家模型。在特定数据集上微调LLMs可以在相应任务上取得出色结果,但对所有能力在数据集上微调LLMs是不切实际的。一个可行的解决方案是使用微调过的小语言模型作为专家模型,作为中心LLM的外部工具。与API相比,训练有素的专家语言模型的优势在于它们能够理解来自LLM的更细粒度和灵活的需求,提供针对性的反馈。
在这里插入图片描述

表 1. LLMs在基础教育相关能力上的表现概览。

4. 总体发展状况

在探索基于LLMs构建教育系统的可能性之前,我们首先需要调查LLMs在与教育相关的能力方面的表现。我们选择代表性的基准测试来评估LLMs在教育相关能力方面的当前发展。具体来说,我们主要从三个来源收集结果:Huggingface、OpenCompass和C-Eval。前两个是综合性排行榜。C-Eval是针对基础模型的中文评估套件,涵盖52个不同学科。我们从这些基准测试中收集了流行的通用LLMs的性能数据,并在表1中展示了汇编结果,从中可以观察到:

  • 单一LLMs很难在所有能力上都表现出色。在当前的LLMs中,GPT-4展示了最令人印象深刻的总体性能。然而,使用GPT-4涉及的成本比其他LLMs更高,对于预算有限的用户和组织来说可能是一个重要考虑因素,而且在基于知识的问答任务中它已经被TigerBot超越。对于数学,GPT-4在代表性数据集GSM8K上实现了最佳性能,但在基本算术任务上,如大数字乘法,它表现出更高的错误率。

  • LLMs在一些关键能力上仍然大幅落后于人类。这方面的一个显著例子是它们在TruthfulQA上的表现,这是一个旨在评估模型提供真实准确答案能力的基准测试,人类达到了94%的准确率,而GPT-4只有59%的正确率。

  • 大多数LLMs在发展这些技能时表现出相当大的变化。虽然某些模型(如Alpaca和Yi)可能在文本理解任务上表现出色,但在需要深入理解和推理的领域,如数学和编程,它们的效果通常有所下降。这揭示了构建一个统一的教育重点LLM的挑战,因为它可能在某些领域失败。

5. 基于LLM的教育系统的潜力

LLMs有潜力通过理解广泛的学生问题,类似于人类教师,从而转变在线教育。它们的目标是为不同的学科和技能水平提供支持。随着LLMs的最新发展,我们建议两种方法来创建基于LLM的教育系统。第一种方法是训练一个全面统一的LLM,能够处理来自各个学科的问题。第二种方法是使用专家混合(MoE)框架,整合专门的模型,由LLM控制器管理与学生的互动对话。

5.1 统一方法

建立基于LLM的教育系统最直接的想法是训练一个能够回答学生所有学科问题的语言模型。如图4(a)所示,基础能力被包含在统一的LLM中,学生可以直接与其沟通并提问。

关于通用LLMs能否处理教育任务的研究正在进行中。Wang和Demszky(2023)为生成性AI引入了三个教师辅导任务:(A)使用课堂观察工具对课堂记录片段进行评分,(B)识别有效教学策略的亮点和错失的机会,以及©提供可操作的建议以鼓励更多的学生推理。并通过人类教师评估,ChatGPT在这些任务上对小学数学课堂记录生成的回答与改进教学相关,但通常没有新颖性或洞见。此外,Phung等人(2023)通过将ChatGPT和GPT-4与人类导师进行比较,评估了它们在编程教育方面的能力。结果显示,GPT-4的表现远远好于ChatGPT,在某些场景下甚至接近人类导师,同时它也突出了GPT-4在某些情况下的困难。特别是,在评分反馈和任务创建场景中,GPT-4与人类导师的表现存在很大差距。

从研究人员提出的用于发展LLMs教育能力的方法中,我们可以提取一些常见、可扩展的方法,为开发统一的基于LLM的教育系统奠定基础:

  • 高质量示例。从各个领域收集高质量数据对LLMs进行微调是不切实际的,但通过提示工程作为一种形式的示例来实现更好的回答是可行的。

  • API工具学习。对于LLMs的内在挑战,如大数字计算和缺乏实时信息,可以通过将外部API作为工具整合来解决。

  • 基于搜索的方法。已经在各个领域尝试使用基于搜索的方法来提高LLMs的任务完成准确率,利用LLMs的概率性质。对于具有挑战性的问题,LLMs可能在多个可能的响应之间徘徊。在这里,使用基于搜索的方法评估和筛选所有选项可以有效地提高准确性,提供一个普遍适用的解决方案。

开发统一的基于LLM的教育系统的好处是,它围绕一个处理核心推理任务的通用LLM。这种设置意味着所有主要的语言交互都直接在LLM和学生之间进行,使系统更易于部署。最主要的努力和资源投入在训练阶段。这个关键时期是LLM在广泛的学科中获得专业水平技能的地方,使其能够有效地支持和教育不同学科的学生。

5.2 MoE方法

第3节回顾了LLMs在各种能力方面的当前发展。不幸的是,尽管存在像GPT-4这样的全面语言模型,这些模型在某些能力上常常表现出明显的缺陷。这种情况构成了挑战,表明仅依赖LLM本身进行涉及所有这些能力的教育指导目前是一个困难的任务。然而,LLMs可以通过微调各个能力来取得优异的结果,它们理解人类语言的能力非常强。因此,我们可以使用专家混合方法聚合具有不同能力的模型。通过建立一个基于LLM的控制器进行语言交互和任务分配,可以生成当前可行的教育系统。

图4(b)展示了一个采用专家混合(MoE)方法实现的教育框架,包括多个在各个能力上表现出色的模型(不一定是LLMs)和一个LLM控制器。控制器主要负责三项任务:

  • 理解学生的请求并决定请求涉及的具体领域或领域。

  • 重新形成请求以适应特定领域专家模型的输入。

  • 聚合相关专家的输出并生成对学生的最终回应。

MoE方法的优势在于训练不太具有挑战性。结果是一套模型,每个模型在其特定领域或能力上都表现出色,结合起来提供全面的教育工具。这种专业化意味着训练可以更有针对性,不那么繁重,将资源优化用于在不同的知识和技能领域发展卓越。然而,一个重大缺点是,在系统的推理阶段增加了误解或错误的潜力,主要是由于不同专业模型和LLM控制器之间交互的复杂性。错误可能源于LLM控制器误解学生输入或向专业模型错误分配任务。此外,将来自不同专家的输出整合成一致的回应也可能引入差异,因为每个模型使用的上下文或术语的差异可能导致与学生的整体沟通出现不一致。

尽管存在这些挑战,这种方法是实现基于LLM的教育助理系统的实用途径。通过为不同的能力使用专业模型,可以创建一个更灵活、更高效的系统,适应广泛的教育需求和学习风格。成功的关键在于改善专业模型与总体LLM控制器之间的整合和沟通,确保系统能够处理复杂的查询并为学生提供准确、有用的回应。目前,这种方法似乎是实现有效的基于LLM的教育助理的雄心勃勃目标的可行策略,预示着一个个性化教育对每个学习者的需求都是可访问和适应的未来。
在这里插入图片描述

图 4. 两种LLM基础的教育框架。(a) 描述了统一方法,单一的LLM处理所有与教育相关的查询,利用其内部能力,如数学、写作、基于知识的问答、推理和编程。(b) 展示了专家混合(MoE)方法,LLM控制器负责任务分配,将特定问题委托给擅长个别领域的专业专家模型。

6. 挑战与未来方向

最近,越来越多的研究人员尝试将LLMs应用于处理教育任务,如课程设计、学生评估、教案设计等。然而,仍有许多挑战和机会需要解决。

  • 为学生规划。解决与学科相关的问题可以显著解决学生未得到教师针对性指导的问题。此外,更高层次的任务包括评估学生的知识状态和规划他们的学习路径。这些任务在深度学习时代不断发展,需要进一步探索LLMs在这些领域的适应和应用。为学生规划学习路径面临的主要挑战在于整合两方面的知识:第一,人类知识体系,涉及知识点之间的结构关系,要求LLMs理解这些知识点的含义。第二,学生的个性化信息,包括他们的知识状态、学习兴趣和习惯。以前的深度学习模型通过训练学生行为序列来完成此任务,这些行为序列通常构建为ID而非文本。由于LLMs的基础是处理文本的能力,数据形式上的差异在应用LLMs于这项任务时提出了重大挑战。

  • 跨学科推理能力。学生在现实世界学习中可能会遇到跨学科的推理问题,要求教育系统集成多种能力来制定回应。如图1所示,学生打算编写一个程序来解决一个数学问题,模型首先需要理解数学问题,设计解决方案,然后生成代码。这个过程要求模型综合数学和编程能力。然而,目前在这个阶段,关于LLMs整合多种跨学科能力的研究有限,包括数据集和算法。Boyko等人(2023)检查了LLMs如何增强科学探究、代码开发、科学写作过程等,并提出LLMs可以通过弥合科学领域之间的知识差距来促进跨学科工作。然而,他们主要讨论了LLMs帮助研究人员跨学科合作的能力,而不是回答跨学科问题的能力。培养一个具备这种能力的LLM将有助于开发统一的教育系统,这是一个重要的研究方向。

  • 学生建模。在LLMs时代之前,在深度学习时代,学生行为建模主要是通过序列模型实现的,如RNNs(Sherstinsky, 2020)和Transformers。这种方法的一个缺点是难以获得学生反馈,结果缺乏可解释性。建立基于LLM的教育系统允许学生通过对话表达他们的个性化需求。通过这样的对话,我们可以提取或推断有关学生的个性化特征,如他们对主题的当前掌握程度和学习风格的偏好。除了从对话中建模学生,一些研究(Aher等人,2023;Argyle等人,2023)表明LLMs在模拟人类和生成人类样本方面具有一定的能力。应用于教育,这种能力表明了基于LLM的学生模拟的潜力。通过这种方式,对于互动记录较少的学生,基于LLM的模拟器可以生成更多样本,并提供数据以帮助专家模型更好地了解学生。这可以帮助人类教师更好地发展教学技能。

  • LLMs的社会偏见。即使在通过人类反馈的强化学习(RLHF)(Ouyang等人,2022)训练后,LLMs在一定程度上可以避免与人类文化习惯和价值观不符的答案(Jiang等人,2022a;Feng等人,2023b),但观察到LLMs在回答中仍然表现出一定程度的价值偏见。Feng等人(2023b)指出,LLMs的训练可能导致一定程度的政治偏见。在教育领域,尽管学生提出的大多数问题与科学知识有关,但在开发基础LLM模型时,研究人员应避免写作和文本推理等问题。在教育应用中,LLMs固有的社会偏见存在风险,可能会无意中向学生传授倾斜的价值观体系。为了维护教育的完整性,并确保知识和信息的中立和公平传播,实施严格的措施至关重要。这些措施可能包括开发先进的内容审查系统,为LLMs在教育环境中的道德使用制定明确的指导方针,并持续监控LLM生成内容的质量和性质。通过这些努力,教育界可以在最小化延续偏见的风险的同时利用LLMs的优势,从而维持一个平衡和客观的学习环境。

  • 预防教育中的作弊。LLMs生成的文本在流畅性和使用上与人类产生的文本无法区分,甚至更胜一筹。尽管本文的主要目的是调查LLMs在教育能力方面的发展,为创建教育超级模型提供见解,但至关重要的是要认识到,在某些教育背景下,过度依赖LLMs并不理想,因为它可能阻碍自然的学习过程。例如,学生在家庭作业任务中寻求LLMs的帮助以助于理解是可以接受的,但是依赖LLMs完成作业而不进行深思熟虑则阻碍了学生接受必要的练习和学习。因此,识别LLMs生成的内容在教育领域具有重要意义,以防止作弊并确保学习过程的完整性。通过在利用LLMs进行教育增强和维护严格的教育标准之间取得平衡,教育工作者和技术专家可以创造一个环境,让学生在不损害学习旅程的情况下从技术中受益。最近的研究提出了识别LLM生成文本的检测器。基础思想大致可以分为两种主要策略:统计异常检测方法和监督分类器。前者专注于揭示人类书写的文本和LLMs生成的文本在语言特征上的统计差异。这涉及分析模式,如句法结构、词汇多样性和风格细微差别,这些区分了LLM生成的文本和人类撰写的文本。这些统计指标作为自动化系统检测偏离人类规范内容的标记,可能表明LLM的参与。另一方面,监督分类器依赖于不同的机制。这种方法采用机器学习算法,这些算法已在包含人类编写和LLM生成文本示例的标记数据集上进行了训练。检测LLM生成文本的斗争是动态的,需要持续的研究和适应检测方法。随着LLMs的日益成熟,区分它们的输出与人类创造的内容的策略将需要发展,结合统计洞察、机器学习创新,也许还有尚未发现的新方法。

  • 多模态教育。在教育中,多模态信息很常见,如结合文本和图像的几何问题或教科书概念的插图。构建一个通用的智能教育系统需要处理这类多模态数据。值得注意的是,多模态LLMs的发展正在迅速推进(Ye等人,2023;Du等人,2022)。提出了不同种类的架构和预训练任务(Du等人,2022)。然而,教育领域在多模态信息中经常表现出独特的分布特征。首先,在教育中,图像和文本通常具有高度的细节匹配;例如,几何问题经常非常详细地描述图像中形状的具体参数。因此,多模态大型模型需要具备捕捉图像信息细节的高能力。其次,教育中的多模态信息通常要求模型具有高度的跨模态推理能力,但这种数据在多模态数据集中较少见,导致多模态语言模型在不同模态间的推理能力可能存在不足。解决这一差距可能需要针对性的数据集,并且受到思维链(CoT)及其变体的启发,数据理想上应包含多模态推理的详细步骤。目前,正在努力解决该领域的数据不足问题。此外,教育中图像和文本数据的特征可能限制了多模态模型结构的选择。例如,在多模态大型模型领域中,一种流行的方法是将图像划分为小块以创建“图像标记”(McKinzie等人,2024),然后将其与文本标记一起作为输入进行处理。然而,在教育背景下,这种划分可能会破坏图像中的某些关键几何结构,从而影响其解释。在教育多模态场景中,这种缺点可能更为明显。

7. 结论

在本文中,我们提供了基于LLM的教育系统的发展的概述。我们首先回顾了LLMs教育相关能力的重要发展。然后,我们分析了它的潜力,并提出了构建这样一个系统的两种不同方法。我们还强调了值得努力的未来方向。我们希望这项调查能为这个方向的未来研究提供一些见解。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值