Learning gain differences between ChatGPT and human tutor generated algebra hints

题目

ChatGPT 与人类导师生成的代数提示之间的学习增益差异

在这里插入图片描述

论文地址:https://aclanthology.org/2023.bea-1.53/
项目地址:https://github.com/rosewang2008/zero-shot-teacher-feedback.

摘要

    大型语言模型 (LLM)(例如 ChatGPT)正在迅速将 AI 推向实际消费者使用的前沿,并引领行业重新评估如何分配内容制作资源。在自适应辅导系统中创作开放教育资源和提示内容是劳动密集型的。如果像 ChatGPT 这样的 LLM 能够制作出与人类创作内容相媲美的教育内容,那么这对于进一步扩展计算机辅导系统方法将具有重要意义。在本文中,我们对 ChatGPT 进行了首次学习增益评估,通过比较其提示与人类导师创作的提示的有效性,共有 77 名参与者参与了两个代数主题领域(初等代数和中级代数)。我们发现 ChatGPT 生成的提示中有 70% 通过了我们的手动质量检查,并且人类和 ChatGPT 条件都产生了积极的学习收益。但是,收益仅对人类导师创建的提示具有统计学意义。在这两个主题领域,人工提示带来的学习收益显著且统计显著高于 ChatGPT 提示,尽管中级代数实验中的 ChatGPT 参与者在预测试中接近上限,甚至没有达到对照组。我们讨论了研究的局限性,并提出了该领域的几个未来方向。实验中使用的问题和提示内容是为了可复制性而提供的。关键词 代数、学习、教育、ChatGPT、语言模型、提示、辅导、自适应学习、智能辅导系统、A/B 测试、Mechanical Turk

    ChatGPT引发了关于它和其他类似的大型语言模型 (LLM) 能够胜任的内容范围的争论。教育界对 ChatGPT 的热门讨论集中在这样的担忧上:如果其答案的质量足以在许多作业中获得高分,它可能会对传统评估构成生存威胁。如果这是真的,我们假设 ChatGPT 生成的问题的答案(显示工作)也可能对学习有效,可作为计算机辅导系统中的“工作解决方案”提示。这种代数解决方案提示方式已被证明可以提高中学生的学习效率[9]和代数辅导系统中的 Mechanical Turk 工作者。我们通过对来自 Mechanical Turk 的 77 名参与者进行在线实验,研究 ChatGPT 生成的提示是否有助于代数学习。在我们的 2 x 2 设计中,参与者1被随机分配到手动提示或 ChatGPT 生成的提示条件,并被随机分配到两节代数辅导课程之一,问题采用自 OpenStax 初等代数和中级代数教科书2。我们使用即将发布的辅导系统 Open Adaptive Tutor (OATutor) 及其基于相同内容预先制作的人工编写提示作为对照,并用 ChatGPT 生成的提示替换人工提示作为实验条件,以回答以下研究问题:•

  • RQ1:ChatGPT 生成低质量提示的频率是多少?
  • RQ2:ChatGPT 提示会产生学习收益吗?
  • RQ3:与人类导师提示相比,ChatGPT 提示在学习收益方面如何?虽然导师创作工具提高了人类转录辅导内容的效率,但生成内容的创作过程仍然是劳动密集型的。

    如果 ChatGPT 或其他基于 LLM 的提示是有效的自动提示生成器,它将为以前未实现的在众多领域和学习环境中扩展计算机辅导方法打开大门。我们将导师代码和实验中涉及的所有内容都提供给完全可重复性 3,我们认为这是第一个评估基于 LLM 的提示以获得学习收益的实验。

相关工作

    新兴作品已经对使用 GPT-3(ChatGPT 所基于的 LLM 的前身)在计算机科学教育中自动生成代码解释进行了离线评估。它也被应用于数学应用题,并根据其生成应用题变体的能力进行了评估。下面,我们将对使用其他方法自动生成提示的工作进行文献综述,并提供有关 LLM 的更多背景信息。过去的工作一直在努力解决数据在自动生成提示中的作用,但遵循一个普遍的直觉,即过去观察到的成功路径可以合成以帮助指导未来的学习者。这种方法被应用于逻辑导师,将学生过去的路径建模为马尔可夫决策过程 (MDP),并在实践中试行该方法时展示了积极的学习成果。计算机编程一直是探索自动提示生成的一个特别活跃的领域。Rivers 和 Koedinger[提出了一种方法,通过这种方法,编程解决方案状态从逐字过去观察到的状态和规范化状态的混合中进行映射,通过消除语义相似状态之间的句法差异而产生。提出了一个数据驱动的问题解决策略评估框架,并在 Code.org 的 Hour of code 数据上运行实验,发现用泊松策略建模编程解决方案路径比用逻辑导师建模的 MDP 更好。[5] 主张使用模仿专家的启发式方法来生成提示,并显示出比应用于相同 Code.org 数据集的纯数据驱动方法略有改进。提示生成也被用于开放式编程作业和编码风格改进。

    在非常大的文本语料库上训练的高度参数化的神经网络标志着当前一代大型语言模型 (LLM)。这些模型还具有 Transformer 的基础模型架构的共同点,Transformer 在 2017 年引入了注意力机制,并应用于后续的自然语言处理模型中,以便根据句子上下文有效地推断词义。GPT 和流行的 BERT 和 SentenceBERT 模型都以 Transformer 作为其基础架构,其中 GPT 利用架构的解码组件(即面向生成),而 BERT 利用架构的编码组件(即面向嵌入)。ChatGPT 在可用性方面的突破来自于其直观且目前可免费访问的界面,以及它对经历了多个发展阶段的 GPT 模型的使用,最新阶段利用人类评分者来更好地将模型生成的文本与被评为理想的响应对齐。

方法

    选择高中代数是因为它是辅导中学习最多的科目,因此是具有最多现有基线和内容可供比较的科目。它也是 OATutor 系统根据 CC B-Y 许可提供预先编写的问题和提示的科目。为了决定在研究中使用哪些目标,每个 OATutor 问题都根据其相关目标进行检查。在代数中,我们决定从初等代数教科书中选择一节课,从中级代数教科书中选择一节课。每本教科书都由章节组成,其中包含学习目标,以及属于这些学习目标的问题集,我们称之为课程。 与过去的代数实验一致,我们设定了三项前测和重复后测以及五项习得阶段的要求。这意味着至少有八个问题必须与学习目标相关,才有资格纳入研究。此外,所有问题都不能依赖任何图像或图形,因为 ChatGPT 和大多数其他 LLM 目前的局限性是它们仅支持文本作为输入和输出。跳过每本书的第一章,因为它涵盖了先决条件内容,我们按顺序浏览每一章和学习目标,直到找到满足标准的学习目标。这导致选择使用减法解方程和等式的加法性质作为学习目标,来自《初等代数》第 2.1 章,使用《中级代数》第 2.1 章的一般策略求解线性方程。

    ChatGPT 提示生成 3.2.1 模型。ChatGPT 是一个基于生成式预训练 Transformer (GPT) 架构的机器学习模型的聊天界面。从根本上讲,ChatGPT 将用户生成的一段文本作为输入(例如,“20 世纪 80 年代最好的电影是什么?”),并返回一段文本作为响应。在这种情况下,输入文本(称为“提示”)用于推断已经在大量文本语料库上进行过预训练的模型。先前的语言模型方法将响应视为提示的文本完成。

    但是,用户与语言模型交互以获得所需响应的方式与这些提示/响应对在训练语料库中的表现方式不同。例如,语料库中的文本可能包含电影列表(即所需响应),紧随文本“20 世纪 80 年代最好的电影是…”(即提示)。但是,与 LLM 交互的用户不倾向于使用这种风格的文本完成提示,而是更喜欢使用以问题或指令形式提出的提示进行查询(例如,“请告诉我 20 世纪 80 年代最好的电影”)。这种对训练数据和用户提示之间不一致的观察导致了使用人类生成的提示响应和 GPT 响应评级进行对齐的过程。这种对齐使用从人类反馈中强化学习 (RLHF),产生了一个名为 InstructGPT(或 GPT 3.5)的模型,这是 ChatGPT 的基础。在我们的研究中,2022 年 12 月 15 日版本的模型用于为我们的实验条件生成问题提示。

    对于选定的两节课中的每个问题,我们直接向 ChatGPT 提出问题并记录其响应以作为提示。图 1 显示了该问题的问题和示例 ChatGPT 提示。提示是 OATutor 定义的问题的文本组件的串联(即 )。在提供新问题的提示时,会创建一个“新聊天”以清除历史记录并防止模型可能使用上一个提示中的信息。我们探索了跟进第二个提示“请解释”,看看是否会给出不同质量的响应。这被认为是潜在的第三个实验条件,但由于响应与原始响应非常相似,我们没有进一步研究。

在这里插入图片描述在这里插入图片描述

    众所周知,大型语言模型有时会产生看似合理或自信的陈述,但事实上是不正确的。为了防止不正确或可能不适当的提示内容进入研究参与者,我们对所有 ChatGPT 生成的提示进行了质量检查。这包括三点检查,以确保 1) 在解决方案中给出了正确的答案 2) 所显示的工作是正确的,以及 3) 没有使用不适当的语言。如果提示满足这三个标准,则认为它完全正确。如果提示甚至不满足其中任何一个标准,则与其相关的问题将被取消资格,从而导致问题池减少可用于实验。在此过程之后,如果未取消资格的问题数量大于或等于 8 个问题,则将使用相关目标进行研究。但是,如果结果少于 8 个问题,则选择一个新的目标(与原始目标相关的同一本 OpenStax 书),并使用新目标重复本研究中详述的整个过程。记录了进行此质量检查所花费的时间和拒绝统计数据,以便稍后将其作为使用 ChatGPT 进行提示生成的成本的一部分进行考虑,并在表 1 中报告。

    手动提示生成我们在 OATutor 系统中使用了已经创建的人工导师提示。这些提示是由具有数学辅导经验的本科生制作的。该系统允许导师作者输入任意组合的文本提示或以问题形式出现的提示,将问题分解为一个小的子任务,称为支架。特定步骤所具有的提示/支架数量没有限制。 OATutor 内容团队的编辑对创作的内容进行了质量检查,但未报告此质量检查所花费的时间。图 2 显示了与 ChatGPT 提示示例相同的问题的手动生成的提示集示例。

实验设置

    实验设计 四个实验条件中的每一个都包括三项预测试,然后是五项获取阶段,最后是三项后测,由与预测试完全相同的项目组成。首先向参与者展示一个同意屏幕,然后随机分配到对照组(即手动提示)或实验组(即 ChatGPT 提示)以及初等代数或中级代数课程。实验结束时,向参与者展示了一个代表他们在 OATutor 系统中的匿名用户 ID 的调查代码,然后是一个感谢屏幕。OATutor 系统处理条件、课程名称、匿名用户 ID、问题名称、正确性的记录响应、提示请求操作和时间戳,我们将这些数据定向到我们自己的 Firebase 帐户,以便稍后下载和分析。

    参与者亚马逊的 Mechanical Turk 市场用于招募参与者。在 Mechanical Turk 中,我们将参与者限制为至少拥有高中文凭并获得“大师”称号的人,这意味着他们已经展示了在平台上成功完成任务的记录。设置高中要求有两个原因。首先,拥有高中文凭的人可能了解初等代数和中级代数的先决条件主题。这意味着在条件阶段通过提示/反馈学习内容后,从预测试到后测试阶段可能会有学习收益。此外,由于 Mechanical Turkers 最近可能没有接触过数学问题解决,因此通过提示/反馈重新学习概念后,更有可能看到他们的分数有所提高。Mechanical Turkers 的报酬为 8 美元,预计会议时间为 1020 分钟。目标参与者人数为每节课和每对条件 20 人,因此总目标参与者人数为 80 人。

在这里插入图片描述

结果

    招募的 77 名参与者完成了他们的课程,只有三名 MTurk 参与者需要被淘汰。表 2 显示了四种实验条件的学习收益结果,以及每位参与者在课程中花费的平均时间、该条件下所有参与者要求的总提示数以及平均前测和后测分数的统计数据。学习收益的计算方法是每个参与者的平均后测平均分数减去前测平均分数。所有比较都选择了统计显着性的 Mann Whitney U 检验,因为使用 Shapiro-Wilk 检验拒绝了学习收益、前测和后测分数的正态性零假设。对于初等代数和中级代数课程,控制条件下的学习收益更高,p = 0.038)。对照组和实验组的参与者在初等代数(p = 0.1598)的预测试中表现均衡,但在中级代数(p = 0.0029)中表现不均衡,对照组参与者在实验中的得分为 50.94%,而实验组的得分为 80.05%。最后,所有实验都显示出积极的学习收益;然而,只有对照组的预测试和后测试分数之间存在统计学上的显著差异(初等代数 p = 0.0219,中级代数 p = 0.0213),而实验组则没有(初等代数 p = 0.1427,中级代数 p = 0.7912)。

结论与讨论

    我们使用 ChatGPT 生成代数提示的研究结果显示,基于质量的生成提示的拒绝率为 30%(RQ1),这表明该技术在目前的形式下仍然需要人工监督。所有被拒绝的提示都是因为包含错误的答案或错误的解决步骤。所有提示均不包含不当语言、拼写错误或语法错误。我们的实验比较了 ChatGPT 生成的提示和手动生成的提示之间的学习收益差异,结果表明所有实验都产生了学习收益;然而,它们仅在手动提示条件下具有统计学意义(RQ2)。

    在两节课中,手动提示都比 ChatGPT 提示产生了更高的学习收益,并且这些差异在统计学上显着可分离(RQ3)。然而,中级代数实验条件下的参与者在预测试中接近上限(平均 80.05%),并且与对照组参与者的预测试分数(平均 50.94%)在统计学上显着可分离。在两节课中,对照组和实验组所花费的时间相似,这表明虽然对照组要求的提示数量要多得多,但由于可以编写的手动提示数量是无限的,因此在实验条件下看到更少的提示并没有节省时间。

    值得考虑的是,这个结果是否表明机器和人类创建的提示之间的质量差异,或者它是否反映了工作解决方案与提示和支架的使用之间的功效差异。未来的工作可以通过与手动生成的工作解决方案进行比较或让 ChatGPT 通过快速工程生成支架和几个提示来隔离这一点。此外,在学习收益中混为一谈的是即时反馈(即被告知答案是正确还是错误)。通过添加即时反馈条件,可以进一步隔离提示的影响,即不向学生显示任何提示,但告知他们答案的正确性。

    Mechanical Turkers 被证明适合这项实验,完成率很高(80 分中的 77 分),并且在所有实验中总体平均后测增益。由于同一科目的预测试分数中表现出的背景知识变化很大(中级代数实验中为 50.94%,对照组为 80.05%),因此可能需要更大的 N 大小。鉴于 Turkers 的预测试分数均超过 50%,因此涉及更高级材料的实验也可能适合减轻天花板效应。理想的实验环境是让学生作为参与者,就在课程中引入主题时。然而,这种协调在中学很难实现,尤其是在大规模的中学。未来的工作可以结合 LLM 的新兴进展 ,这可能允许在问题中使用图像,并有可能通过自洽性降低提示生成拒绝率。未来的工作还可以探索 ChatGPT 生成的提示的个性化,并扩展到数学以及 STEM 之外更高级的主题领域。

  • 16
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值