Can Autograding of Student-Generated Questions Quality by ChatGPT Match Human Experts?-CSDN博客

本文链接：https://blog.csdn.net/weixin_43961909/article/details/141438722

文章目录

- 题目
- 摘要
- 引言
- 相关工作
- 方法
- 讨论与启示
- 结论

题目

ChatGPT 对学生生成问题质量的自动评分能否与人类专家媲美？

在这里插入图片描述

论文地址:https://ieeexplore.ieee.org/document/10510637

摘要

学生生成问题 (SGQ) 策略是一种有效的教学策略，可培养学生的高阶认知和批判性思维。然而，评估 SGQ 的质量非常耗时，并且需要领域专家的大量帮助。以前的自动评估工作侧重于问题的表面特征。为了克服这一限制，使用最先进的语言模型 GPT-3.5 和 GPT-4.0 对 1084 个 SGQ 的主题相关性、表达清晰度、可回答性、挑战性和认知水平进行了评估。结果表明，与 GPT-3.5 相比，GPT-4.0 在主题相关性、表达清晰度、可回答性和难度级别方面表现出与专家更好的评分一致性。GPT-3.5 和 GPT-4.0 在认知水平方面与专家的一致性较低。在三轮测试中，与 GPT-3.5 相比，GPT-4.0 在自动评分中表现出更高的稳定性。此外，为了验证 GPT 在评估不同领域和学科的 SGQ 方面的有效性，我们在 LearningQ 数据集的一部分上做了同样的实验。我们还讨论了教师和学生对 GPT 模型自动评分的态度。研究结果强调了 GPT-4.0 在协助教师评估 SGQ 质量方面的潜力。尽管如此，SGQ 的认知水平评估仍然需要教师的人工检查。

索引词——人工智能 (AI) 辅助评分、自动评分、ChatGPT、问题质量评估、学生生成的问题 (SGQ)。

引言

学生生成的问题 (SGQ) 对于教师了解学生的知识至关重要。SGQ 指示有关学生对讲座的理解水平、概念误解或教学目标与学生理解之间的差距的信息。根据这些信息，教师可以调整教学设计或方法以满足学生的需求。 SGQ 还有利于学生的高阶认知思维和计算思维。当学生在课前或课后有疑问时，他们会积极参与学习。这个过程鼓励学生保持好奇心并激发批判性思维。

然而，在大规模在线学习的背景下，手动评估大量 SGQ 的质量对课程讲师来说是一项耗时的任务。这会导致课程讲师感到疲惫和工作负担过重。为解决此问题提出的一个实用解决方案是采用自动机器评分。虽然以前的自动方法已经取得了出色的表现，但它们侧重于 SGQ 的表面特征，例如文本长度、语法和句子结构。为了评估 SGQ 的语言和教学质量，已经实现了一种结合专家和 GPT-3 的混合模型。GPT-3 模型在 SGQ 质量分类中的准确率为 40%，在布鲁姆分类法分类中的准确率为 32%。GPT-3 表现平平是由于缺乏领域知识，导致高估质量或错误分类布鲁姆分类法。随着 GPT 模型的发展，GPT-3.5 和 GPT-4.0 在多个自然语言处理任务上展现出了最佳性能。这些先进的模型在教育评估和评价方面具有巨大的潜力。

为了验证先进模型在评估 SGQ 质量方面的有效性，我们使用 GPT-3.5 和 GPT-4.0 自动评估问题的质量。通过与专家评估进行比较，我们探讨了 GPT-3.5 和 GPT-4.0 在 SGQ 自动质量评估方面的表现。本研究调查了以下研究问题。

RQ1：GPT-3.5 或 GPT-4.0 对 SGQ 质量的自动评分能否与人类专家相媲美？
RQ2：GPT-3.5 或 GPT-4.0 能否像人类专家一样准确地根据布鲁姆分类法自动对 SGQ 进行分类？
RQ3：GPT-3.5 和 GPT-4.0 在自动评分 SGQ 质量方面有多稳健？
RQ4：课程讲师和学生对 GPT-3.5 和 GPT-4.0 评估有何看法？

本文的主要贡献在于：首先，我们评估了 GPT-3.5 和 GPT-4.0 模型在自动 SGQ 评分中的有效性。其次，我们通过与一组经验丰富的教育工作者的比较证明了 GPT-3.5 和 GPT-4.0 在对教育问题进行分类方面的表现不如人类专家准确。第三，我们对课程讲师和学生进行了全面调查，以收集他们对使用 GPT-4.0 模型评估 SGQ 的看法。调查问题包括模型的可靠性和准确性，以及模型的潜在优势。

本文的其余部分组织如下。第二部分回顾了相关工作。在第三部分中，我们解释了实验设计和数据集。随后，我们在第四部分展示了使用 GPT-3.5 和 GPT-4.0 的自动评分结果，并对实验进行了详细分析。在第五部分，我们讨论了我们的发现。最后，第六部分对本文进行了总结。