How Teachers Can Use Large Language Models and Bloom’s Taxonomy to Create Educational Quizzes

题目

教师如何使用大型语言模型和布鲁姆分类法来创建教育测验

在这里插入图片描述

论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/30353

摘要

    问题生成 (QG) 是一种自然语言处理任务,在教育领域具有大量潜在优势和用例。为了发挥这一潜力,QG 系统的设计和验证必须考虑到教学需求。然而,很少有研究评估或设计过基于真实教师或学生输入的 QG 方法。本文应用了一种基于大型语言模型的 QG 方法,其中问题是根据布鲁姆分类法得出的学习目标生成的。自动生成的问题用于多个实验,旨在评估教师在实践中如何使用它们。结果表明,教师更喜欢用自动生成的问题来编写测验,而且与手写版本相比,这种测验的质量没有任何损失。此外,一些指标表明,自动生成的问题甚至可以提高所创建测验的质量,显示出在课堂环境中大规模使用 QG 的前景。

    问题生成 (QG) 是一项流行的自然语言处理 (NLP) 任务。其目标是生成有用且流畅的自然语言问题。许多方法还尝试生成相应的答案,或使用答案生成问题 。由于最近在 NLP 中取得的成功,最近的 QG 研究主要使用基于 Transformer 的大型语言模型 (LLM) 。QG 的一个明显用例是教育应用。例如,强大的 QG 系统可以减少教师创建教育内容(如家庭作业、测验、考试、课堂学习活动等)的时间。或者,它可以作为学生的练习工具。教育问题生成 (EQG) 的潜在用途范围非常广泛,尤其是考虑到 LLM 最近的成功。不幸的是,此类系统在现实世界中的部署记录很少。这种缺乏采用的潜在原因可能是包括旧方法性能不佳、系统僵化以及用户不信任。Wang 等人进行了一项需求调查研究,旨在探索为什么 QG 系统没有在课堂上使用。他们的一个关键发现是,QG 系统必须满足使用它们的教育者的需求才能有效并被采用。为了实现这一点,在开发教育 QG 系统的研究必须考虑到最终用户的意见。鉴于 LLM 在其他任务中的成功,我们的假设是,它们可以从给定的上下文中生成不同类型的问题,教师认为这些问题对于创建质量可与手写版本媲美的测验很有用。

    进一步我们预测,当生成的候选项与布鲁姆分类法的级别相对应时,教师会发现它们更有用。图 1 描绘了我们用于生成与布鲁姆分类法相对应的教育问题的少样本提示策略(有关此方法的更多详细信息,请参见第 3 节)。为了评估我们的预测,我们进行了测验编写实验,旨在比较和对比三种不同的测验类型。测验和测验编写方法的“有用性”的多个方面被考虑,包括生成的测验的质量、效率(相对于时间)和教师的偏好。我们的结果表明,这三种类型的测验质量相似。一些指标甚至表明,使用自动生成的问题时质量有所提高。我们还发现,教师强烈倾向于使用与布鲁姆分类法相对应的自动生成问题来编写测验。这些结果证明了 EQG 在现实世界课堂中的巨大潜力,以及在设计 EQG 方法时考虑教师需求的重要性。

在这里插入图片描述

背景

    EQG 和更广泛意义上的 QG 的最新研究围绕着基于 Transformer 的 LLM 的使用展开。这些 LLM 是在大量数据上训练的深度学习模型,以提高其生成性能。在 QG 研究中应用这种方法的原因很大程度上是由于它与早期的基于规则和其他类型的系统相比具有显着的性能改进。基于 Transformer 的 LLM 的典型训练目标是下一个标记预测,这意味着它们学习预测初始输入文本的可能完成。最近的模型也开始在其训练过程中包括强化学习。GPT-3.5 就是这种情况,它是本文报告的实验中使用的 LLM。通过从人类反馈中进行强化学习进行微调,GPT-3.5 的表现优于 GPT 家族中的前辈。

    与下一个标记预测的常见 LLM 训练目标一致,QG 的新兴范式是将文本输入(称为提示)提供给 LLM,以供模型完成。设计此提示以生成所需的输出可能是一项艰巨的任务,这导致了一个名为提示工程的新研究方向。提示工程最常见的方法之一是将字符串添加到提供给 LLM 以进行生成的上下文中,这称为前缀样式提示。例如,假设一位机器学习老师希望生成有关梯度下降的问题。他们可以采用的一个简单策略是使用输入提示 LLM:生成有关梯度下降的问题。为了增加生成的问题的特异性,老师可以提供更多上下文。例如,他们可能会用教科书上关于梯度下降特定方面的段落来编写提示,例如:从以下段落生成问题:<…> 为了进一步控制生成,教师的输入可以包含一个控制元素——一个将指导生成的关键字(Mulla 和 Gharpure 2023)。例如,他们可以用以下方式提示 LLM:从以下段落生成多项选择题:<…> 在这个简单的例子中,我们提出了三个不同的提示,所有这些都可以产生不同的问题。

    添加不同的单词选择和其他控制生成的策略会迅速使提示工程成为一个复杂的优化问题。提示工程的另一个方面是在提示本身中包含所需输出格式和样式的示例。这通常称为小样本学习。简而言之,小样本学习提示由指令、一些示例和手头的任务组成。这些示例用于使 LLM 适应未见过的场景,而无需额外的训练或微调。例如,按照前面的例子,老师可能会通过提供此类问题的例子来提示 LLM 生成真或假类型的问题。为教育 QG 添加更多特异性的能力使研究人员能够生成不同难度级别、考虑不同教学目标等的问题。例如,Wang 等人尝试了一系列不同的提示策略,以优化教育 QG。他们得出结论,使用较短的输入上下文和少量学习会产生更高质量的候选问题。最近,Elkins 等人展示了如何在不同级别的问题分类法中生成问题,这些问题分类法是从教育文献中获取的组织结构,例如布鲁姆的学习目标分类法。作者展示了在不同复杂程度和不同学习目标下成功生成问题的方法。

    尽管教育 QG 领域最近取得了令人兴奋的研究进展,但只有少数记录在案的案例表明这些技术被用于现实世界的课堂。如前所述,Wang 等人发现,研究目标与教师实际需要和希望从 EQG 获得的东西之间缺乏一致性,这是此类系统未在现实世界课堂中部署的原因。旨在探索教师和学生对使用自动生成内容的需求、意见和态度的先前研究很少。尽管如此,还是存在一些相关的先例论文:

  • Van Campenhout、Hubertz 和 Johnson的工作概述了一种将教科书翻译成交互式课件的 NLP 系统。作者进行了一项大型用户研究,结果显示学生在机器生成和人工编写的问题上的表现相同。但是他们的 QG 系统主要是基于规则的,并且他们生成的问题相对简单(即概念匹配和填空)。
  • 上述 Elkins 等人的工作与真正的教师一起评估了他们生成的候选问题,以更准确地评估它们的教学实用性。他们发现他们生成的问题受到教师的高度评价。然而,这项工作只在单个问题层面而不是测验层面评估问题。
  • Laban 等人的工作超越了问题级别的评估,转向了测验写作任务,类似于我们在本文中的工作。作者设计了一项任务,让教师专门使用自动生成的候选问题进行测验。教师们还在进行过程中将候选人标记为可接受或不可接受;然而,最终的全球录取率只有 52%。

因此,虽然作者在现实场景中向 QG 评估迈出了重要一步,但他们的生成本身似乎还有改进的空间。

方法

    本研究中的 EQG 是通过提示 GPT-3.5 从给定的输入段落生成问题来进行的。 为了将教学设计的生成方法与更简单的 QG 方法进行比较,使用了两种不同的策略。这些策略分别称为受控和简单。在受控实验中,两种类型的候选生成都提供给教师,以评估它们在实践中的实用性(这些实验的细节将在第 4 节中解释)。以下小节将介绍输入上下文的详细信息以及所使用的两种前缀样式提示策略。上下文候选教育问题由来自维基百科的一组 24 段文字生成,每段文字包含 5 个上下文段落,长度为 6 到 9 个句子。因此,用于生成问题的输入上下文总数为 120。这些上下文的长度由初步工作中的实证结果确定。这组段落是手动收集的。特定的维基百科文章通常是通过域的主要维基百科或词汇表页面的超链接选择的,以确保它们与给定域的基础相关。

    使用了两个领域:生物学 (BIO) 和机器学习 (ML)。为了展示与领域无关的结果,我们引入了多个领域。每个领域有 12 段文字,总共 60 个输入上下文。这些上下文在使用前经过了少量预处理:包括删除引文、超链接、脚注和语音拼写,将完整句子项目符号列表重新格式化为段落,以及其他少量数据清理步骤。

    简单提示策略 简单提示策略使用通用策略通过 GPT-3.52 生成问题,试图评估模型在不进行任何额外提示工程的情况下生成教学上有用的问题的能力。提示模板如图 2 所示。为了产生与下文描述的受控策略相同数量的问题,一次生成的问题数量为六个。初步实验的经验结果表明,一起生成所有问题会产生更多样化的输出,而单独生成则会产生重复的问题。

在这里插入图片描述
    受控提示策略 受控提示策略使用教学问题分类法来生成具有不同学习目标的问题。布鲁姆分类法是一种流行的框架,用于对教育材料中的学习目标进行分类。该分类法包含六个学习级别,按从“较低”到“较高”级别的思维技能的层次顺序排列:记忆、理解、应用、分析、评估和创造。 布鲁姆分类法可帮助教师设计针对特定学习目标的教学内容。 本文使用的生成策略旨在减少生成的候选问题之间的重叠。与一次生成一个问题和分类级别不同,针对给定上下文的所有六个问题都是一次生成的,如图 1 所示。在初步实验中,这种方法从经验上表明,相同问题的生成减少了,多样性和对分类级别的遵守程度更高。

    受控提示策略还使用少量学习。在初步实验成功后,我们使用五次学习(即提示中的五个示例)。如图 1 所示,一个示例包含一个提示和六个问题,每个级别一个问题Bloom 分类法。示例由领域专家手工制作,并由另一位专家审查问题质量和是否符合预期的分类级别。每个领域都有五组上下文和示例,总共 10 个上下文和 60 个问题。

评估

    为了评估我们两种自动生成的问题在现实世界学术环境中的适用性,我们必须真正让真正的老师使用它们。因此,我们设计了一个实验来复制老师创建的阅读测验。我们想比较当老师从头开始编写测验和在编写测验时可以使用自动生成的问题时产生的测验质量。第 4.1 节介绍了本文考虑的测验质量指标。然后,第 4.2 节解释了由真实教师进行的测验编写实验。

    测验质量 为了能够比较借助 GPT-3.5 编写的问题和测验与手写测验的质量,我们必须首先确定如何衡量测验的质量。然而,测验的质量通常是一个主观指标。根据各自的教学风格,教师对什么是好的测验有不同的看法。
我们定义了一组指标来衡量测验的各个方面,这些指标可以捕捉测验质量的不同方面,只有实用性才能纯粹反映注释者的意见。根据以前的研究,我们确定了以下四个测验级指标。

    好的阅读测验将与教学材料相关。它将自然而连贯,这意味着它不会让参加测验的学生感到困惑。最重要的是,好的测验将得到老师的批准用于课堂。以下指标试图评估这些方面中的每一个:

  • 覆盖率是 [0, 1] 中的数值指标,用于衡量输入段落在最终测验中的反映程度。为了衡量这一点,我们将每个问题映射到段落中包含与答案相关的信息的句子。为了保持一致性,所有问题都映射到文本中的任何可能的答案(即,选择重复信息的两个实例,开放式问题选择更多文本等)。然后根据映射文本的长度和整个段落的长度计算覆盖率。该指标的灵感来自金字塔法,该方法用于注释摘要,该方法使用了类似的策略。
  • 结构是一个从 1 到 3 的序数指标,用于衡量一组问题放在一起是否有意义。换句话说,它们是否直观地与自然/可理解的流程联系在一起(例如,从易到难,或从上下文的开始到结束)。以前,对话式问答题也使用了类似的指标,其中问题必须有逻辑上的联系,才能使对话自然。
  • 冗余度是一个从 1 到 3 的序数度量,用于衡量测验中是否存在冗余/重复,例如,如果有两个问题要求相同的答案,而不需要学生有任何不同的观点或思维过程。以前,对话式问答题也使用了类似的度量,其中问题不能重复,以使对话自然。
  • 有用性是一个从 1 到 4 的序数度量,用于衡量教师是否会在他们为自己的班级创建的评估中使用测验。请注意,测验不一定需要完全从上下文中回答才能被视为有用。以前,Elkins 等人使用了类似的序数度量,Steuer 等人 和 Mulla 和 Gharpure 以不同的尺度使用了类似的序数度量。

    除了整个测验的质量之外,确保单个问题的质量也很重要。因此,我们还概述了三个问题级指标,这意味着对测验中的每个问题进行评估。这不是详尽的评估,但以下内容涵盖了问题质量的基本方面:

  • 相关性是一个二元指标,用于衡量问题在语义上是否与输入上下文相关。此前,Steuer 等人和 Elkins 等人 使用了类似的二元方法,Mulla 和 Gharpure也在不同尺度上使用了类似的二元方法。
  • 流畅度是一个二元指标,用于衡量问题集在语法上是否正确并使用清晰的语言。与之前的指标类似,Mazidi 和 Nielsen 和 Elkins 等人之前的方法也应用了这种二元指标,Mulla 和 Gharpure 在不同尺度上更广泛地使用了该指标。
  • 可回答性是一种二元指标,用于衡量是否可以从输入上下文中回答问题。不必能够从输入中找到可以回答问题的段落;只要学生能够从上下文中合理地回答问题就足够了(例如,将段落中解释的逻辑应用到新情况中使问题“可回答”)。如上所述,Steuer 等人和 Elkins 等人之前的研究中使用了类似的二元指标,Mulla 和 Gharpure在不同尺度上提出了类似的指标。

    测验写作实验 测验写作实验旨在模仿教师创建阅读测验。为了能够衡量和比较教师的测验写作过程,我们对设置进行了严格控制。第 6 节讨论了这可能会带来的潜在限制。在进行实验之前,我们与 ML 领域的四名教师进行了一次试点,以确保指标和注释者训练明确无误。这次试点对训练和指标定义的措辞进行了细微的更改,但没有发现重大的实验缺陷。

    共有 24 位测验写作教师,每个领域 12 位。BIO 教师是通过自由职业平台 Upwork 找到的,并且至少具有高中水平的教学/辅导经验。ML 教师是通过第一作者所在机构的口口相传招募的,并且至少具有大学水平的教学/辅导经验。所有教师都获得了公平的金钱报酬,并在参与之前签署了同意书。他们都精通英语,并且来自相对多样化的人口统计数据。1 教师完成了一个培训模块,其中为他们提供了各自领域的示例测验,并指导他们创建每种测验类型,以确保他们了解手头的任务。

    图 3 描绘了单个教师(无论其领域如何)所经历的过程。每位教师编写了三个测验,长度在五到十个问题之间。每个领域有 12 位教师和 12 篇文章,每篇文章都用于创建每种类型的测验。请注意,每位老师都收到了三段不同的文章,以减少由于老师使用他们已经看过的材料而可能产生的偏见。三种测验类型是:手写、简单和受控。要创建手写测验,老师只需阅读文章并从头开始编写测验。要创建简单测验,老师阅读文章并使用简单提示策略生成相关考生。然后,他们创建一个测验,可以自由地直接复制生成的问题、复制和修改它们或从头开始编写问题。同样,要创建受控测验,老师阅读文章和相关受控考生,然后编写测验。测验以随机顺序编写,以减少因测验编写子任务的排序而导致结果出现偏差的可能性。

    要求教师在测验编写过程中录制他们的屏幕。分析这些视频以评估教师编写每种测验的经验。测量编写测验所花费的时间,包括阅读文章和其他候选人所花费的时间。测量最终测验的长度,最少 5 个问题,最多 10 个问题。最后,记录问题的来源。换句话说,记录问题是直接从 GPT-3.5 代复制而来,还是被老师复制和修改过,或者是否完全从头开始编写。实验完成后,要求教师完成一个简短的后测验,以更好地了解他们对三个测验编写任务的反馈。有一个关于实验的自由形式评论部分。然后,要求教师选择三种测验类型中的哪一种是他们喜欢的类型并提供他们的理由。

    最后,另外八位注释者(每个领域四位)使用第 4.1 节中介绍的指标分析了最终测验的质量。他们的招募方式与上述相同,并且具有相似的教学经验和英语水平。每个领域的四位注释者都查看了六个测验,以衡量注释者之间的一致性。其余测验由两位注释者查看。让一位以上的注释者评估每个测验可以更可靠地衡量测验的质量。注释者并不知道哪些测验包含自动生成的问题。

结果

    本节介绍测验质量评估和测验编写过程的主要结果。首先,第 5.1 节将比较和对比三种不同测验类型的测量质量。然后,第 5.2 节将讨论教师在不同测验编写环境中的经验。测验质量总体而言,测验质量评估的结果表明,手写和两代测验类型之间没有明显的质量损失。甚至有人认为,从以下一些结果中可以看出测验质量有所提高。三个问题级指标表明,所有群组和测验类型中不相关、不流畅和无法回答的问题数量都很少。当跨测验类型进行比较时,这些结果相对一致。这意味着使用生成的候选题不会显著提高或降低测验问题在这三个方面的质量。注释者对这些指标的一致性是“公平的”,BIO 群组的平均成对 Cohen’s κ 值为 0.3,ML 群组的平均成对 Cohen’s κ 值为 0.6。

    当教师在测验编写过程中使用生成的问题时,覆盖率结果显示显着改善。图 4 描绘了手写和简单以及简单和受控测验类型之间输入文本覆盖率的增加。在 ML 队列中,覆盖率之间存在显著差异,在手写和控制测验中。在 BIO 队列中,我们观察到了相同的显著差异,以及简单和控制测验中覆盖率的差异。虽然这不是阅读测验唯一重要的方面,但自动生成的问题提供的覆盖率增加可以使教师在写作过程中受益。由于不相关、不流畅和无法回答的问题百分比较低,因此一致性值是根据不平衡的数据集计算的,可能无法准确表示问题案例的真实一致性。 本文的第一作者为每个测验注释了一个覆盖率值,因此该指标没有一致性测量。我们将其留待将来的工作。

在这里插入图片描述在这里插入图片描述

    三个序数测验级别指标同样在各方面都取得了积极成果,如表 2 的平均值列所示。注释者一致性值相当高。这些指标的一致性用 Kendall 的 τ 来衡量,因为它适用于序数尺度。所有平均成对值均高于 0.5,大多数高于 0.81。图 5 显示了测验级别指标之间的差异三种测验类型。值得注意的是,对于所有三个指标和两个群组,其中一种代际测验得分最高评分。在 ML 队列中,手写和简单测验的实用性评分甚至存在显著差异。这表明生成有助于提高测验的质量。进一步优化生成过程,也许可以直接从教师那里获得有关在特定环境下哪些类型的问题有用的输入,可以显示出更大的质量改进。

在这里插入图片描述在这里插入图片描述

    测验写作体验 测验写作结果表明,当教师使用生成问题时,效率不会持续下降,至少在所用时间方面是如此。图 6 显示了两个群体编写每种类型测验的平均时间。平均值都相对接近,95% 置信区间表明,测验类型在时间方面似乎没有明显差异。对这些结果的进一步分析表明,时间指标更多地取决于教师和特定段落,而不是生成的候选问题。

    BIO 队列的平均测验长度为 8.14,ML 队列的平均测验长度为 7.11。每种测验类型中的平均问题数量与所有类型的平均值相差一个问题,表明使用代际并没有改变这个变量。一个更有趣的比较可以在图 7 中看到,其中比较了简单和受控测验类型的问题来源。在这两个群体中,当教师可以使用受控代数时,他们手写的问题更少。事实上,在 ML 群体中,这种差异具有统计意义。同样,在这两个群体中,教师直接将更多的受控代数复制到他们的测验中,而不是简单代数;相应地,他们复制和编辑的问题更少。这一发现表明,与其他代数相比,教师更多地选择使用布鲁姆分类法生成的问题,这激励他们继续进行 QG 研究,并牢记教学目标。

在这里插入图片描述在这里插入图片描述

    测验后结果表明,两个群组的教师都强烈倾向于使用受控生成,如图 8 所示。教师们的以下评论进一步证明,他们认为受控生成对他们的测验写作最有用。教师们表示“针对每种特定类型生成的问题都非常有用。”和“我特别喜欢‘创建’问题,因为我自己不会想出其中的大部分问题。”另一位老师评论说,他们“试图结合不同的命令术语和级别问题来准备一个测试学生理解深度的测验”,这表明了问题的预期用途,这些问题是布鲁姆分类法的不同级别。这一发现证实了本文的指导直觉,即 QG 方法的设计应考虑教学目标。

局限性

    重要的是要注意这项工作的一些局限性。首先,我们承认测验写作设置在某种程度上是人为的。实际上,教师的测验写作经验将是主观的:他们可能会使用额外的资源或现有的知识,写一份草稿并在稍后再进行编辑,不限制问题的数量,有不同的学习目标等等。测验写作设置对于控制某些变量以在这项工作中进行比较是必要的,但它可能会导致结果不反映教师测验写作的现实。未来的工作应旨在消除这些限制,以更好地评估教师如何实际使用生成的问题。其次,这项工作只考虑了一个LLM、两个领域、英语环境和有限数量的教师。虽然超出了这项工作的范围,但未来的工作应该旨在扩大这些方面的多样性,以评估生成的问题如何使其他教育环境受益。第三,这项工作中缺少的考虑是教育环境的另一半:学生。未来的工作应该包括学生的目标、意见和表现,以便更全面地了解在课堂上使用自动生成的问题的影响。尽管存在这些局限性,但这项工作最终朝着未来在现实教育用例中 QG 研究的正确方向迈出了一步。

结论

    本文旨在表明 LLM 能够从给定上下文中生成不同类型的问题,教师认为这些问题对于创建与手写版本质量相当的测验很有用。为此,进行了测验编写实验,比较了三种类型的测验:手写、简单和受控测验。受控测验使用与布鲁姆分类法级别相对应的生成问题。结果表明,教师非常喜欢在受控生成的帮助下编写测验。他们直接复制的受控生成问题比简单生成问题多,这表明这些问题质量更高或更适合教师的目标。这证实了我们的假设,即教师发现自动生成的教学问题对测验编写很有用。此外,对测验质量的评估表明,受控生成和简单生成的测验质量相当。一些指标甚至表明,与手写测验相比,其质量更高。我们希望这些发现将有助于引导教育 QG 研究的未来走向符合教师和学生目标和需求的实际应用。

  • 19
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值