题目
ChatGPT 对学生生成问题质量的自动评分能否与人类专家媲美?
论文地址:https://ieeexplore.ieee.org/document/10510637
摘要
学生生成问题 (SGQ) 策略是一种有效的教学策略,可培养学生的高阶认知和批判性思维。然而,评估 SGQ 的质量非常耗时,并且需要领域专家的大量帮助。以前的自动评估工作侧重于问题的表面特征。为了克服这一限制,使用最先进的语言模型 GPT-3.5 和 GPT-4.0 对 1084 个 SGQ 的主题相关性、表达清晰度、可回答性、挑战性和认知水平进行了评估。结果表明,与 GPT-3.5 相比,GPT-4.0 在主题相关性、表达清晰度、可回答性和难度级别方面表现出与专家更好的评分一致性。GPT-3.5 和 GPT-4.0 在认知水平方面与专家的一致性较低。在三轮测试中,与 GPT-3.5 相比,GPT-4.0 在自动评分中表现出更高的稳定性。此外,为了验证 GPT 在评估不同领域和学科的 SGQ 方面的有效性,我们在 LearningQ 数据集的一部分上做了同样的实验。我们还讨论了教师和学生对 GPT 模型自动评分的态度。研究结果强调了 GPT-4.0 在协助教师评估 SGQ 质量方面的潜力。尽管如此,SGQ 的认知水平评估仍然需要教师的人工检查。
索引词——人工智能 (AI) 辅助评分、自动评分、ChatGPT、问题质量评估、学生生成的问题 (SGQ)。
引言
学生生成的问题 (SGQ) 对于教师了解学生的知识至关重要。SGQ 指示有关学生对讲座的理解水平、概念误解或教学目标与学生理解之间的差距的信息。根据这些信息,教师可以调整教学设计或方法以满足学生的需求。 SGQ 还有利于学生的高阶认知思维和计算思维。当学生在课前或课后有疑问时,他们会积极参与学习。这个过程鼓励学生保持好奇心并激发批判性思维。
然而,在大规模在线学习的背景下,手动评估大量 SGQ 的质量对课程讲师来说是一项耗时的任务。这会导致课程讲师感到疲惫和工作负担过重。为解决此问题提出的一个实用解决方案是采用自动机器评分。虽然以前的自动方法已经取得了出色的表现,但它们侧重于 SGQ 的表面特征,例如文本长度、语法和句子结构。为了评估 SGQ 的语言和教学质量,已经实现了一种结合专家和 GPT-3 的混合模型。GPT-3 模型在 SGQ 质量分类中的准确率为 40%,在布鲁姆分类法分类中的准确率为 32%。GPT-3 表现平平是由于缺乏领域知识,导致高估质量或错误分类布鲁姆分类法。随着 GPT 模型的发展,GPT-3.5 和 GPT-4.0 在多个自然语言处理任务上展现出了最佳性能。这些先进的模型在教育评估和评价方面具有巨大的潜力。
为了验证先进模型在评估 SGQ 质量方面的有效性,我们使用 GPT-3.5 和 GPT-4.0 自动评估问题的质量。通过与专家评估进行比较,我们探讨了 GPT-3.5 和 GPT-4.0 在 SGQ 自动质量评估方面的表现。本研究调查了以下研究问题。
- RQ1:GPT-3.5 或 GPT-4.0 对 SGQ 质量的自动评分能否与人类专家相媲美?
- RQ2:GPT-3.5 或 GPT-4.0 能否像人类专家一样准确地根据布鲁姆分类法自动对 SGQ 进行分类?
- RQ3:GPT-3.5 和 GPT-4.0 在自动评分 SGQ 质量方面有多稳健?
- RQ4:课程讲师和学生对 GPT-3.5 和 GPT-4.0 评估有何看法?
本文的主要贡献在于:首先,我们评估了 GPT-3.5 和 GPT-4.0 模型在自动 SGQ 评分中的有效性。其次,我们通过与一组经验丰富的教育工作者的比较证明了 GPT-3.5 和 GPT-4.0 在对教育问题进行分类方面的表现不如人类专家准确。第三,我们对课程讲师和学生进行了全面调查,以收集他们对使用 GPT-4.0 模型评估 SGQ 的看法。调查问题包括模型的可靠性和准确性,以及模型的潜在优势。
本文的其余部分组织如下。第二部分回顾了相关工作。在第三部分中,我们解释了实验设计和数据集。随后,我们在第四部分展示了使用 GPT-3.5 和 GPT-4.0 的自动评分结果,并对实验进行了详细分析。在第五部分,我们讨论了我们的发现。最后,第六部分对本文进行了总结。
相关工作
A. 学生生成的问题SGQ 策略被定义为一种教学过程,学生在此过程中就他们认为重要且相关的课程材料的特定领域提出问题。来自各种研究的实证证据表明,SGQ 策略可有效提高学生的积极性、课堂参与度和学习成绩。当学生对学习内容有疑问时,他们会关注学习材料中的关键信息,积极寻找解决方案,并保持高度的好奇心和对学习活动的参与度。因此,学生可以更深入地理解学习内容,并培养批判性和创造性思维能力。例如,Aflalo发现,参与提问活动的学生往往比同龄人表现出更高的认知和元认知能力。Hsu和Wang设计了一种基于游戏的SGQ策略来提升学生的算法思维能力。他们发现游戏机制加上SGQ策略可以提高学生的积极性和算法思维能力。
此外,SGQ策略对教师也有潜在的好处。它可以帮助教师评估学生的学习情况和认知发展水平。SGQ指示有关哪些学习内容对学生来说很难的信息。通过采取全面的方法来审查SGQ,教师可以获得有关学生整体成长和发展的宝贵见解,并确定教学实践中的优势和劣势。SGQ还可以帮助教师定制教学方法,以解决学生的学习差距或误解。尽管这些研究证明了 SGQ 在促进教学和学习方面的价值,但大多数研究都忽略了学生提出的问题的质量。SGQ 的质量因学生的表达和认知能力而异。有些问题可能包含模棱两可、不合逻辑或不精确的信息。
因此,在使用 SGQ 之前需要评估或审查其质量。然而,评估大量 SGQ 的质量仍然是一项极具挑战性的任务,因为它需要课程讲师投入大量的时间和精力。
B. 评估 SGQ 的质量 先前的研究设计了不同的指标来评估 SGQ 的质量。Davey 和 McBride从文字和推理方面评估了 SGQ 的质量。如果问题的答案可以是推理或从文本中整合的,则该问题被评为正确。如果答案直接来自文本,该问题被评为不正确。Marbach-Ad 和 Sokolove 提出了八个类别来评估 SGQ 的质量,从低级到高级。这些类别可以分为四大类:准确表达、概念、超越课本和研究假设。该指标也用于评估学生生成的阅读问题。在读写教育中,使用流动类型学来评估 SGQ 的质量。读写特定类型学包括六个子领域:描述性、认知性、连接性、生成性、建构性和整合性。此外,大多数研究使用布卢姆分类法或其修订版来评估 SGQ 的质量。
布卢姆分类法是评估学习者认知水平的基准标准和宝贵工具。它包括六个级别:记忆、理解、应用、分析、评估和创造。为了评估 SGQ 的质量,先前的研究使用了同行、人类专家或自动评估方法。同行评审是评估 SGQ 质量的有效方法。然而,这种方法受到学生认知的限制,不能完全依赖它。专家根据问题的语言和任务导向维度,根据预定义的评估标准对 SGQ 进行评估。语言层面的评估旨在根据问题的语