Can Large Language Models Provide Feedback to Students? A Case Study on ChatGPT

题目

大型语言模型能为学生提供反馈吗?ChatGPT 案例研究

在这里插入图片描述

论文地址:https://ieeexplore.ieee.org/abstract/document/10260740

摘要

    摘要——教育反馈已被广泛认为是提高学生学习能力的有效方法。然而,扩大有效的实践范围可能既费力又费钱,这促使研究人员致力于自动反馈系统(AFS)。受预训练语言模型(例如 ChatGPT)最新进展的启发,我们认为此类模型可能会推进 AFS 中文本反馈生成的现有知识,因为它们能够提供自然而详细的响应。因此,我们旨在研究使用 ChatGPT 为学生提供反馈以帮助他们更好地学习的可行性。具体来说,我们首先检查了 ChatGPT 生成的反馈的可读性。然后,我们在根据评分标准评估学生的作业时测量了 ChatGPT 和老师之间的一致性。最后,我们使用了一个著名的理论反馈框架来进一步研究 ChatGPT 生成的反馈的有效性。我们的结果表明:i)与人类教师相比,ChatGPT 能够生成更详细的反馈,流畅、连贯地总结学生的表现; ii) ChatGPT 在评估学生作业主题时与老师达成了高度一致;iii) ChatGPT 可以对学生完成任务的过程提供反馈,这有利于学生发展学习技能。 索引词——反馈生成;自动反馈;大型语言模型;反馈有效性

    人们普遍认为,教育中的质量反馈可以成为提升学习体验和学生成绩的重要杠杆。然而,由于教学资源有限,为大量学生提供及时和建设性的反馈已成为一项艰巨的任务。一个潜在的解决方案是使用自动反馈系统 (AFS)。为了方便提供反馈,已经开发了各种自动反馈系统来处理不同的教育任务,从为新手编程生成代码解释到回复论坛帖子以支持大规模开放在线课程的学习者。例如,Marwan 等人应用了一种自适应即时反馈系统为高中程序员提供实时反馈。将该系统集成到编程环境中可以增强学生学习计算机科学课程的参与度,从而提高他们的任务表现。然而,很少有 AFS 经过量身定制 *通讯作者。到开放式写作任务,例如论文作业和项目提案,这些任务在高等教育中变得越来越普遍,但通常需要教师花费大量时间才能提供全面的反馈。

    生成式预训练 Transformer (GPT) 模型领域的最新突破可以看作是 AFS 发展的催化剂。 OpenAI 开发的 GPT 模型的最新变体 ChatGPT 自 2022 年 11 月推出以来就变得非常受欢迎。 与前辈相比,ChatGPT 的重大进步取决于对对话上下文的额外人工引导微调。 这种特定的训练使 ChatGPT 能够生成更自然、更针对上下文的响应。 因此,我们认为 ChatGPT 有潜力推进现有的开放式写作任务文本反馈生成知识。 在本文中,我们旨在探索使用 ChatGPT 为学生作业生成文本反馈的可行性。所选的作业是一项写作作业,学生在其中提出了一个他们需要在澳大利亚一所大学完成的数据科学项目。我们的研究由以下研究问题指导:

  • RQ 1 ChatGPT 生成的反馈在多大程度上可读?
  • RQ 2 在评估学生的表现时,ChatGPT 生成的反馈在多大程度上与讲师生成的反馈一致?
  • RQ 3 ChatGPT 生成的反馈在多大程度上包含有效的反馈成分来指导学生学习?为了回答上述研究问题,我们首先检查了生成的反馈的可读性,这是衡量机器生成文本质量的常用指标。

    然后,我们根据评分标准测量了 ChatGPT 和人类教师在评估作业时的一致性。最后,为了进一步研究 ChatGPT 生成的反馈的有效性,我们使用了提出的著名理论反馈模型来分析和比较 ChatGPT 和人类教师生成的反馈中是否存在有效的反馈成分。通过广泛的分析,我们为在高等教育中将 ChatGPT 部署到开放式任务的反馈提供中的研究做出了贡献,主要发现如下:

  • ChatGPT 可以生成更详细的反馈,比老师更流畅、更连贯地总结学生的表现;
  • 在评分标准中指定的五个方面中,ChatGPT 在评估学生作业主题方面与人类教师取得了高度一致;
  • ChatGPT 可以对学生完成任务的过程提供反馈,例如,除了在任务级别提供反馈以表明学生的表现如何之外,还可以在反馈中建议学习策略

相关工作

    由于反馈在学习和教学系统中得到越来越多的认可,学者们一直致力于开发理论模型来解释反馈如何影响学习以及哪些原则有助于有效的反馈设计。例如,从形成性评估的研究文献中确定了良好反馈实践的七项原则,这些原则从认知、行为和动机方面支持自我调节。然而,这些原则被认为过于笼统,不适合分析文本反馈。Hattie 和 Timperley提出了一个反馈模型,该模型在先前的研究中被广泛用于分析文本反馈。该反馈模型将有效反馈分为四个层次的重点,即任务重点 (FT)、过程重点 (FP)、自我调节重点 (FR) 和自我重点 (FS)。具体来说,任务反馈通常包含纠正信息,表明任务执行得如何(例如,“对该机器学习模型的解释是错误的。”)。过程反馈主要旨在建议完成任务的策略(例如,“如果您使用我们之前讨论过的策略,此页面可能会更有意义。”)。自我调节层面的反馈涉及学生如何监控他们的学习(例如,“您已经知道论证开头的主要特征。检查一下您是否已将它们融入第一段。”),自我层面的反馈是关于个人评价(例如,“你是个好学生。”,“做得好!”)。通过回答有关学习目标、当前表现和下一步实现目标的问题,这四个层次可以有效地提高学生的学习能力。因此,我们的研究用它来评估反馈的有效性。B. 自动反馈生成许多现有的 AFS 根据领域专家预定义的规则生成反馈。例如,OnTask是一款基于规则的 AFS,教师可以通过设置有关学生学习活动(如出勤率和学业成绩)的条件规则,大规模地对学生的学习行为提供反馈。虽然这些系统可以减轻教师的一些压力,但它们并不适用于开放式作业(例如学生的提案报告),因为这些作业的答案千差万别,因此需要定义大量的专家设计规则。

    人工智能的最新进展吸引了研究人员的兴趣,他们对使用预训练语言模型来为更复杂的任务生成文本反馈。例如,Jia 等人设计了基于 BART 的 Insta-Reviewer,用于自动对学生记录工程课程编码任务的报告生成即时反馈。为了提高学生的学习参与度,Li 和 Xing 使用 GPT-2 在 MOOC 讨论论坛上生成帖子回复。尽管这些研究展示了预训练语言模型在反馈生成方面的可行性,但它们都没有尝试对学生的项目提案等开放式任务生成详细的反馈。这种作业在高等教育中很常见,但教师往往很难对其进行全面的反馈。我们假设 ChatGPT 是基于 GPT 模型的变体,它可能会推进现有的复杂任务文本反馈生成知识。采用自注意力机制使 ChatGPT 能够处理长距离依赖关系,而对大量对话数据的微调使其能够生成连贯且与上下文相关的答案。例如,Aydin 和 Karaarslan将 ChatGPT 应用于学术文献写作任务,并根据抄袭工具的匹配率对 ChatGPT 进行了评估。结果表明,ChatGPT 在生成文献综述时获得的匹配率较低。鉴于 ChatGPT 在文本生成方面的巨大影响,值得研究 ChatGPT 在教育环境中生成精细反馈方面的潜在价值,作为先例。

方法

    我们的研究获得了匿名大学的伦理批准,项目编号为 [BLINDED]。我们从一门教授数据科学入门技能的研究生课程中检索了数据集。在这门课程中,学生需要提出一个与商业场景相关的数据科学项目,并提交一份项目提案以供学业成绩评估。该提案应包括两部分,即项目描述和商业模式,这是对项目所属业务或应用领域的分析。教师评估提交的提案并根据评分标准中规定的以下五个方面为每位学生提供文本反馈:i)清晰描述项目目标(目标);ii)主题与数据科学的适用性(主题);iii)清晰描述商业利益(利益);iv)新颖性/创造性(新颖性),以及v)报告的整体清晰度(清晰度)。 删除没有反馈的学生记录后,我们最终获得了103名学生的提案报告和相关的教师生成的反馈。请注意,为了保护隐私,我们在报告和反馈中删除了学生的个人身份信息。表一显示了教师生成的反馈长度的基本统计数据。

在这里插入图片描述

    ChatGPT 生成反馈 ChatGPT 由 OpenAI 免费发布,可通过访问 https://chat.openai.com/进行访问。ChatGPT 能够通过查看描述任务的提示(即用户用自然语言编写的供 ChatGPT 模型执行的指令或查询)来生成响应。在当前的研究中,ChatGPT 的任务是从五个评估方面对学生的提案报告生成文本反馈。 因此,我们将 ChatGPT 的提示设计如下:“请从项目目标的清晰描述、主题对数据科学的适用性、商业利益的清晰描述、新颖性/创造性和报告的整体清晰度等方面对以下文本给出反馈。<插入报告文本>”。对于每个学生,我们将他们的提案报告文本插入提示中并将其提交给 ChatGPT 以获得生成的反馈。 ChatGPT 生成的反馈长度统计数据如表 I 所示。

评估方法为了回答 RQ1,我们采用了一种广泛使用的度量标准,即可读性来检查机器生成文本的质量。按照工作 [20] 中评估可读性的过程,我们邀请了三位专家,并要求他们每位专家使用五分量表对 ChatGPT 或讲师的每条反馈进行评分,其中:(i) 0 表示难以理解;(ii) 1 不流利且不连贯;(iii) 2 有点流利但不连贯;(iv) 3 流利但有点不连贯和 (v) 4 流利且连贯。由于对文本可读性的评估因人类专家而异,我们计算了三位专家的平均分数作为每条反馈可读性的最终指标。

    为了回答 RQ2,我们测量了 ChatGPT 生成的反馈在作为学生表现评估信息时与教师反馈的一致性。如 [11] 所示,反馈的作用是减少学生当前表现与期望目标之间的差异。在反馈过程中,当学生完成设定的目标时,教师可能会在反馈中肯定学生的努力。当学生表现不佳时,教师可能会指出他们应该进一步改进的地方。在本文中,我们使用“极性”来表示反馈是为了肯定学生的努力(“积极”)还是指出他们应该进一步改进的地方(“消极”)。如果反馈生成器无法提供准确表明学生表现如何的反馈——即对表现不佳的正面反馈或对表现良好的负面反馈——生成的反馈可能会无意中误导学生并对学习产生负面影响。因此,我们需要调查 ChatGPT 生成的反馈在反馈极性方面与教师反馈的一致性程度。我们聘请了两位专家来确定反馈极性。

    由于来自讲师或 ChatGPT 的每条反馈都是通过基于五个方面(即目标、主题、好处、新颖性和清晰度)评估学生报告而生成的,因此我们确定了每个方面的反馈极性。具体来说,如果反馈是为了肯定学生在特定方面的努力,那么专家会将其标记为“积极”,而如果反馈表明学生需要在特定方面改进,那么专家会将其标记为“消极”。如果反馈不包含对特定方面的任何评论,那么专家会将其标记为“无”。对于每一条讲师或 ChatGPT 反馈,我们获得了五个标签,每个标签都表示五个评估方面的反馈极性(即“积极”、“消极”或“无”)。为了衡量 ChatGPT 在每个评估方面生成具有准确极性反馈的能力,我们将三种反馈极性视为三个类别,将讲师反馈的标签视为基本事实,将 ChatGPT 反馈的标签视为预测类别,计算了多类预测任务的两个常用指标精确度和召回率,因为本研究的目的是评估使用 ChatGPT 支持人类教育者提供反馈的可行性。例如,假设 ChatGPT 总共对 4 份报告在“主题”方面给出了积极的反馈,而其中只有 2 份在同一方面获得了讲师的积极反馈,则精确度为 2/4(0.50)。假设讲师总共对 6 份报告在“主题”方面给出了积极的反馈,则召回率为 2/6(0.33)。

    为了回答 RQ3,我们使用了 Hattie 和 Timperley [11] 提出的著名反馈理论框架来分析 ChatGPT 和讲师生成的反馈中是否存在有效的反馈成分。我们招募了两位专家,使用 [11] 中提出的四级反馈模型对讲师和 ChatGPT 反馈进行注释。经过关于注释规则的预训练课程后,每位专家在我们的数据集中注释了 206 条反馈,其中包括 103 条讲师反馈和 103 ChatGPT 生成的反馈。在回答 RQ2 和 RQ3 的两个注释任务中,我们分别计算了两位专家对讲师反馈和 ChatGPT 生成的反馈的一致性分数和 Cohen’s κ。结果如表 II 所示。两位专家之间的不一致由第三位专家解决。
在这里插入图片描述

结果

    ChatGPT 和讲师反馈之间的可读性 RQ1 分数的结果报告在表 III 中。我们可以看到,ChatGPT 生成的反馈比讲师反馈更具可读性(p < 0.001,经配对 t 检验)。 图 1 显示了讲师和 ChatGPT 提供的反馈的可读性分数分布。分布表明,ChatGPT 反馈的大多数可读性分数在 3.75 到 4.0 之间,而大多数讲师反馈(超过 75%)低于可读性分数 3.75,标准差高于 ChatGPT。通过仔细检查讲师和 ChatGPT 反馈的内容,我们发现 ChatGPT 生成的反馈通常包含学生作品的简要摘要和评估反馈,然后解释如何给出此反馈,而讲师的反馈主要由关于学生表现评估的简单表达组成。我们从数据集中提取了以下示例以供参考。 • 讲师:“主题选择得很好。不是一个新颖的想法。报告清晰且结构良好。” • ChatGPT:“总体而言,文本清楚地描述了项目的目标,即实施数据驱动的方法。 。 。使用数据科学进行人才挖掘的主题是恰当且相关的,因为游戏的受欢迎程度和商业成功。 。 。”

在这里插入图片描述

    RQ2 的结果回答 RQ2 的结果如表 IV 所示。通过观察精确度和召回率指标的值(在第 III-C 节中介绍),我们可以看到,在五个评估方面中,ChatGPT 在“主题”方面的正极性一致性得分最高(精确度:0.84,召回率:0.93)。这一观察可以通过以下事实得到支持:在“主题”方面,教师和 ChatGPT 都给予了大多数学生正反馈,即教师的 103 个反馈中有 86 个是正反馈,而 ChatGPT 的 103 个反馈中有 95 个是正反馈,如表 IV 中“主题”正极性反馈的数量所示。在其他四个方面,学生大多从教师那里得到负面反馈或空反馈(即,反馈中不包含对特定方面的任何评论,在表 IV 中表示为无),而 ChatGPT 产生的正反馈比教师多。虽然 ChatGPT 在“目标”和“好处”的正极性上的回忆分数也很高,但我们不能得出 ChatGPT 与讲师意见一致的结论,因为这些层面的精确度很低(“目标”正极性为 0.04,“好处”正极性为 0.20)。换句话说,在“目标”方面,在 95 份 ChatGPT 给出积极反馈的报告中,只有 4% 也得到了讲师的积极反馈,而在“好处”方面,在 85 份 ChatGPT 给出积极反馈的报告中,只有 4% 也得到了讲师的积极反馈。正面反馈,只有 20% 的人也得到了老师的正面反馈。

    RQ3 表 V 的结果表明,任务级反馈出现在老师提供或 ChatGPT 生成的每条反馈中。令人惊讶的是,ChatGPT 能够为超过一半的报告生成以过程为重点的反馈。与其他水平相比,教师在自我调节和自我层面提供的反馈比例较小,而在 ChatGPT 生成的反馈中根本没有检测到自我调节和自我层面的反馈。

讨论意义

    值得注意的是,由于时间限制,高等教育中的教师难以始终如一地提供符合学生期望的高质量反馈。我们的研究表明,ChatGPT 能够以更高的一致性生成更易读的反馈,这为部署 ChatGPT 提供了支持,以帮助教育工作者在更短的时间内为更大规模的班级提供始终如一的高质量个性化反馈。 RQ2 的结果表明,与教师相比,ChatGPT 无法提供可靠的学生表现评估。对此的一个可能的解释是,我们没有通过提供包括不同质量的学生作业和相关的黄金反馈在内的例子来训练 ChatGPT,这些例子可以准确评估他们的表现。在未来的研究中,应该进行及时的工程设计,以确保 ChatGPT 在评估学生作业方面的可靠性,在此基础上,我们可以进一步研究 ChatGPT 反馈在促进学生学习方面的有效性。此外,我们惊讶地发现,ChatGPT 可以生成大量以过程为重点的反馈,这种反馈被认为比以任务为重点的反馈更有效地塑造学生的任务策略。

    这意味着 ChatGPT 在指导学生改进任务甚至发展学习技能方面具有良好的价值。局限性。首先,虽然本研究衡量了教师反馈和 ChatGPT 反馈在每个评估方面的极性方面的总体一致性,但我们还没有测试它们在同一作业上的一致性,这对每个学生来说都更为关键。进一步的研究应该调查 ChatGPT 能在多大程度上提供与其评论的作业相关的有效反馈。其次,ChatGPT 以无监督的方式生成反馈可能会影响我们研究中生成的反馈的有效性。未来,我们可能会考虑进行快速工程,以根据学习目标从 ChatGPT 获得所需的反馈。最后,我们研究中进行的分析严重依赖于人工注释,这非常耗时。因此,自动评估值得进一步发展,以评估教育反馈的有效性

  • 14
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
3.1 Data Collection The GeoNames dataset (http://www.geonames.org) was used as the primary data source for this study. GeoNames is a geographical database containing over 10 million geographical names, including cities, towns, and other place names, as well as their geographical coordinates, population, and other related information. The dataset is freely available for download and is regularly updated. We downloaded the GeoNames dataset in July 2021, which consisted of a single text file containing all the data. The dataset was too large to be loaded into memory as a whole, so we split it into smaller files for processing. We focused on the cities and towns subset of the dataset, which contained over 3 million entries. Before cleaning the data, we examined the structure of the dataset and identified the key fields that we needed for our analysis, including the city name, country name, latitude and longitude coordinates, and population. We also noted that some fields contained null values, which would need to be handled appropriately during cleaning. After identifying the key fields, we used Python to parse the dataset and extract the relevant information. We also used Python's NLTK library to tokenize the city names and remove any non-alphanumeric characters. We then saved the cleaned data to a new CSV file for further analysis. Overall, the data collection process was straightforward, and the GeoNames dataset provided a rich source of geographical information for our study. However, the dataset did require significant cleaning and preprocessing, as we will describe in the next section.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值