题目
GPT-4 Turbo 根据布鲁姆修订分类法从教科书中生成学校级问题的效果如何?
论文地址:https://arxiv.org/abs/2406.15211
摘要
我们评估了 GPT-4 Turbo 在零样本模式下从 NCERT 教科书中生成教育问题的有效性。我们的研究强调了 GPT-4 Turbo 生成需要高阶思维技能的问题的能力,尤其是在根据布鲁姆修订分类法的“理解”层面。虽然我们发现 GPT-4 Turbo 生成的问题与人类评估的问题在复杂性方面存在显著的一致性,但偶尔也存在差异。我们的评估还揭示了人类和机器评估问题质量的方式存在差异,其趋势与布鲁姆修订分类法水平成反比。这些发现表明,虽然 GPT-4 Turbo 是一种很有前途的教育问题生成工具,但其功效在不同的认知水平上有所不同,表明需要进一步改进才能完全满足教育标准。
CCS 概念 • 应用计算 → 教育。
关键词 自动问题生成 (AQG)、大型语言模型 (LLM)、布鲁姆修订分类法、GPT ACM 参考格式:Subhankar Maity、Aniket Deroy 和 Sudeshna Sarkar。2024. GPT-4 Turbo 在基于布鲁姆修订分类法从教科书生成学校级问题方面有多有效?在。ACM,纽约,纽约州,美国,5 页。https://doi.org/10.1145/nnnnnnn.nnnnnnn
简介
在教育领域,设计高质量的问题是教育工作者努力培养学生深刻理解和批判性思维的关键任务。问题是学习评估的基石,是衡量理解、回忆、应用、分析、评价和创造的门户,本质上反映了布鲁姆修订分类法中概述的不同认知技能水平。此分类法 为教育工作者提供了一个结构化的框架,用于对学习目标的深度和复杂性进行分类和评估,使他们能够定制教学策略以满足学习者的不同需求。然而,手动的问题设计过程对教育工作者来说往往是艰巨而耗时的,需要对细节一丝不苟地关注并深入了解教学原则。
近年来,在人工智能 (AI) 和自然语言处理 (NLP) 进步的推动下,自动问题生成 (AQG) 的出现有望彻底改变教育的这一基本方面。大型语言模型 (LLM),例如 GPT-4 Turbo,已展示出在各个领域生成类似人类的文本和响应的卓越能力。利用这些 LLM 驱动的技术,教育工作者可以简化问题创建过程,从而腾出宝贵的时间专注于教学传授和学生参与。
在这项研究中,我们开始探索 LLM 驱动的方法在学校教育背景下生成和评估问题的有效性。为此,我们使用 GPT-4 Turbo 的零样本提示从国家教育研究和培训委员会 (NCERT)1 教科书的选定章节中生成问题,评估问题与布鲁姆修订分类法的一致性。我们专注于历史、地理、经济学、环境研究和科学等学科,从 6 𝑡ℎ 到 12𝑡ℎ 标准,采用多方面的方法来实现我们的研究目标。
我们的方法包含三个关键组成部分。
- 我们利用 GPT-4 Turbo 在零样本模式下的功能来刺激与布鲁姆修订分类法相对应的教育问题的创建,重点是确保特定研究领域的语境适当性。
- 我们利用先进的 NLP 方法来评估所生成问题的质量,检查它们与布鲁姆修订分类法的兼容性以及它们与项目写作缺