Evaluation of LLM Tools for Feedback Generation in a Course on Concurrent Programming

题目

对并发编程课程中用于生成反馈的 LLM 工具的评估
在这里插入图片描述

论文地址:https://link.springer.com/article/10.1007/s40593-024-00406-0

摘要

    大型语言模型 (LLM) 的出现标志着教育领域的重大变革。这些 LLM 及其相关聊天机器人的出现为学生和教育工作者带来了诸多好处,包括可用作内容创作或总结的教学助手。本文旨在评估 LLM 聊天机器人在大学编程课程中为学生练习提供反馈的能力。本研究中的编程主题 (并发性) 的复杂性使得向学生提供反馈的必要性变得更加重要。作者对学生提交的练习进行了评估。然后,使用 ChatGPT(来自 OpenAI)和 Bard(来自 Google)评估每个练习,寻找典型的并发错误,例如饥饿、死锁或竞争条件。与专家教师进行的真实评估相比,可以得出结论,尽管 LLM 在教育领域普遍受到好评,但这两种工具都无法准确评估练习。所有尝试的准确率都为 50%,这意味着这两种工具在有效评估这些特定练习的能力上都有局限性,特别是发现典型的并发错误。

引言

    自我调节学习 (SRL) 是一种学习方式,可以提高学生对自己的信念、知识、动机和认知过程的认识。自我调节的学生可以设定学习目标,制定实现目标的策略,并调整策略或目标来管理他们的动机并继续取得进步。有充分的证据表明,参与 SRL 的学生往往是更成功的学习者 。学生刻意监控学习过程,对其进行评估,并在闭环中进行调整。自我调节学习的显著特征之一就是学习过程中的“自我导向反馈回路”。这个回路意味着一个循环的连续过程,在这个过程中,学生评估他们的学习成果有多富有成效,并采取相应的行动,要么调整他们的看法,要么调整他们的学习策略,采取更有可能提高考试成绩的行为,同时避免可能不利于成功的行为。

    反馈已被证明可以提高学生的学习能力。但具体来说,反馈是自我调节学习的关键催化剂。参与自我调节学习的学生通过监控他们的学习过程获得一些内部反馈。这种反馈构成了他们认知过程和学习策略质量的衡量标准。然而,自我调节学习者可以发现他们活动的预期结果和实际结果之间的差异,并倾向于利用外部反馈,如回答教科书的问题、学生在合作小组中的评论或教师的评论来解决这种差异。普遍的共识是,学习者在使用外部反馈时会更有效。

    从另一个角度来看,由于在线教学的迅猛发展,外部反馈在近年来变得更加重要,在线教学中教师和学生不一定共享完全相同的空间和时间坐标。因此,教师提供高质量的反馈以帮助学生就更加紧迫了。更重要的是,在过去的二十年里,学习管理系统(LMS)的出现和普及为教师提供了与学生和内容互动的各种方法,从而为提供反馈提供了无限的机会。

    为每个学生提供反馈可能既昂贵又耗时。当反馈不能系统化时,它很难扩展。当教师负责教授高度专业化或复杂的内容时,情况尤其如此。一方面,教师可用的资源较少。另一方面,教师为学生提供定制反馈变得更加复杂。在这里,定制是指适应学生的输出,而不是适应学生的特点,因为它有时在文献中使用。要使反馈真正有价值,它必须适应学生的输出。根据 Sadler (1989) 的报告,良好的反馈必须提供有关学习任务或过程的信息,以弥合期望学习结果和实际学习结果之间的差距。

    自动化反馈不一定会比传统反馈产生更差的表现。事实上,对自动反馈进行了系统的文献综述,结果表明,在 65.07% 的研究中,自动反馈提高了学生的表现。近年来,提供​​个性化自动反馈的一个热门研究领域是自然语言处理 (NLP),它是人工智能 (AI) 的一个领域,专注于开发能够理解和生成人类语言的计算模型。2022 年底大型语言模型 (LLM) 的出现代表了对 NLP 期望的大幅提升。LLM 是基于著名的 transformers的生成式预训练模型,这是一种使用大量文本数据训练以学习语言结构的深度学习模型。这使 LLM 能够执行诸如总结文本、语言翻译或回答等任务。除此之外,LLM 还代表了所谓的“涌现能力”的颠覆性贡献,即在较大的模型中出现了未为其设计或训练的不可预测的能力,而这些能力在较小的模型中并不存在。

    执行算术运算、从自然语言指令生成可执行代码、自动调试或思路链提示只是已报告的涌现能力的几个例子。人工智能社区正在对这些属性进行彻底的基准测试。这个和其他新属性,以及 LLM 的潜在缺陷和局限性,仍然是一个研究课题,它们在不同应用中使用的可行性尚未得到证实。由于这些属性的衡量标准很复杂

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值