题目
使用大型语言模型在不同布鲁姆技能水平上自动生成教育问题:策略与评估
论文地址:https://arxiv.org/abs/2408.04394
摘要
开发符合教学法、相关且促进学习的问题对于教育工作者来说是一项具有挑战性且耗时的任务。现代大型语言模型 (LLM) 可在多个领域生成高质量内容,从而可能帮助教育工作者开发高质量的问题。自动教育问题生成 (AEQG) 对于扩大在线教育以满足多样化学生群体的需求非常重要。AEQG 过去的尝试表明,其在生成更高认知水平的问题方面能力有限。在本研究中,我们研究了五种不同规模的最先进的 LLM 生成不同认知水平的多样化高质量问题的能力,这些问题由布鲁姆分类法定义。我们对 AEQG 使用了复杂程度不同的高级提示技术。我们进行了专家和基于 LLM 的评估,以评估问题的语言和教学相关性和质量。我们的研究结果表明,在获得足够的信息后,LLM 可以生成不同认知水平的相关且高质量的教育问题,尽管所考虑的五个 LLM 的性能存在显著差异。我们还表明,自动评估与人工评估并不相称。
关键词:大型语言模型 · 自动教育问题生成 · 布鲁姆分类法。
简介
近年来开发的基于 Transformer 的预训练大型语言模型极大地提高了自然语言生成 (NLG) 任务的质量 [24]。随着训练数据和模型大小的指数级增长,这些模型可以生成具有人类专家级质量的复杂文本。OpenAI ChatGPT 的发布使 LLM 可供更多非自然语言处理 (NLP) 专家的受众使用,使他们可以将其用于日常任务。语言模型通过指令调整来遵循用户指令 [24]。它们具有零样本能力 [10],这意味着如果您向 LLM 提供详细的任务描述,该模型将创建有意义的输出。这些 LLM 有可能以不同的方式用于教育 [9],包括创建个性化内容、评估和反馈。
高质量的评估使学习者能够深入参与该主题并将他们的学习与现实世界联系起来。侧重于布鲁姆分类法 [2] 中定义的不同认知技能的评估(如表 1 所述)可帮助教育工作者识别学生学习中的差距。这些信息使他们能够调整教学以更好地支持学生,也有助于学生了解自己的优势和劣势。然而,创建这样的评估需要教育工作者投入大量的时间和精力 [11]。自动教育问题生成 (AEQG) 系统减少了教师的努力和认知负担。过去对 AEQG 方法的研究需要上下文信息,以便模型生成高质量的问题。如今,教育信息来自多个来源,选择正确的资源具有挑战性。
相关工作
在 LLM 时代之前,AQG 研究主要集中在使用问答数据集(例如 SQuAD 2.0 和 NQ)生成问题。这些数据集包含上下文和答案,必须针对这些问题创建问题 [25]。然而,公共数据集的有限可用性阻碍了能够生成高质量问题的 AQG 系统的进展。最近在问题生成方面的研究主要集中在使用预训练或微调的 LLM 进行该过程。编码器解码器模型(例如文本到文本传输转换器 (T5))和仅解码器模型(例如 GPT3)以及上下文信息用于生成问题 [17]。使用教育文本对这些模型进行预训练也提高了生成问题的质量 [3]。
最近的研究表明,使用 LLM 使用思路链 (CoT) 提示根据不同的评估标准评估机器生成内容的质量取得了令人鼓舞的结果。 G-EVAL [13] 是一种基于 GPT4 的评估模型,其表现显著优于之前的模型,并且在总结任务上与人类的判断一致。然而,一些使用微调的 GPT3 模型来评估机器生成问题的教学质量的研究结果并不令人满意 [16,3]。人类专家或众包评估已被广泛用于分析机器生成问题的教学质量 [19,6]。
大多数 AQG 模型生成的问题通常测试低阶技能 [20] 或创建文本中直接提到答案的问题 [25]。这些问题不足以测试学生的高阶认知技能。布鲁姆分类法 [2] 为教育工作者生成问题以测试不同的认知技能提供了指导。最近的研究 [18] 使用 GPT4 开发基于布鲁姆分类法的课程材料。
目标和研究问题
我们的方法利用 LLM 中固有的内容知识,并在提示中添加有关问题生成过程的技术信息来生成教育问题。尽管 LLM 在以下方面表现出色:各种下游任务,它们会产生错误和不一致 [8],从而影响生成问题的质量。这在不同的 LLM 之间也存在很大差异。因此,评估 LLM 生成问题的质量至关重要。虽然 BLEU 分数或困惑度等指标可以评估机器生成的问题,但它们通常只检查语言特征 [22]。在目前的研究中,我们使用 AEQG 主题领域的两位教育工作者的服务进行手动专家评估,并使用未用于 AEQG 的 LLM 进行自动 LLM 评估。
我们使用零样本和少量样本技术以及 CoT 提示,使用不同大小的 LLM 为研究生级数据科学课程生成问题。 使用了五种不同复杂程度的提示策略来创建这些问题。然后