Current Evaluation Methods are a Bottleneck in Automatic Question Generation

三月七꧁ ꧂

于 2024-08-10 08:00:00 发布

阅读量834

点赞数 24

分类专栏：论文合集文章标签：语言模型 prompt 人工智能自然语言处理 chatgpt

本文链接：https://blog.csdn.net/weixin_43961909/article/details/141070344

版权

论文合集专栏收录该内容

32 篇文章 0 订阅

订阅专栏

文章目录

题目

当前的评估方法是自动问题生成的瓶颈

在这里插入图片描述

论文地址：https://openreview.net/pdf?id=12WFHESUjD

摘要

本研究全面回顾了基于计算语言学技术和大型语言模型的自动问题生成 (AQG) 系统质量评估的常用评估方法。在全面概述评估方法的现状的同时，我们讨论了每种方法的优点和局限性。此外，我们阐明了在教育环境中全面整合自动问题生成系统的下一步措施，以实现有效的个性化和适应性。关键词：自动问题生成、评估方法、机器翻译、众包、人工评估者、消融研究

开发高质量的问题一直是教育工作者面临的一大挑战，因为这一过程不仅需要内容专业知识（即领域知识），还需要评估专业知识，包括对问题的每个元素（例如问题主干、回答选项或源材料）的设计方式有扎实的理解。自动问题生成 (AQG)，也称为自动项目生成，已成为解决问题开发挑战的可行解决方案。AQG 涉及使用计算机算法自动创建测试项目、问题或评估。AQG 简化了问题生成过程，使教育工作者和评估开发人员能够在相对较短的时间内创建大量项目。这种效率降低了测试开发的总体成本，因为它最大限度地减少了传统上与创建评估相关的人工和资源需求。AQG 系统已广泛应用于在线学习平台，学生在这些平台上回答大量问题来评估他们当前的学习状态。

随着教育评估越来越多地转向数字平台，AQG 在将技术无缝集成到评估过程中方面发挥着至关重要的作用。然而，目前的 AQG 系统无法持续生成普遍有效且易于在数字学习和评估环境中部署的问题。AQG 生成的每个问题都需要彻底审查，主要有两个目的：

评估 AQG 系统的整体质量和实用性
辨别哪些问题在操作上适合教育环境。有效地生成大量问题只是成功的问题生成流程的初始阶段。随后必须采用强大的评估方法来衡量问题的质量和可用性。

本研究旨在全面回顾 AQG 中最常用的评估方法，阐明每种方法在诊断问题方面的优势和局限性。评估 AQG 的需求，以便将生成的问题转化为实际应用。第二个目标是弥合心理测量方法和计算机科学问题评估方法之间的差距，提供整体概述。

AQG 中的评估方法

在本节中，我们讨论了评估 AQG 的最常用方法及其优点和局限性。我们总结了近期同行评审的关于 AQG 的文章和出版物的综合文献。人工评估员使用手动编码实践和评分量表来评估生成的问题的质量。人类评估者包括专家、学生、研究人员和教师。人工评估者可以使用评分量表，其中可能包括质量标准，例如问题难度、干扰项功能、领域相关性、流畅度和语法准确性。

人工评估者一直是自动和传统心理测量问题评估方法中问题评估的基本方法之一。如果使用有效的评分量表并采用培训过程来实现评分者之间的标准化和评分者间信度，它们可能提供有关所生成问题质量的基本事实。然而，人工评估者通常很昂贵。评估生成的问题需要更长的时间，因为每个问题都是由至少两名评估者单独评估的，以评估评估者之间的评分者间信度。简而言之，人工评估者违反了 AQG 的基本假设——我们可以以经济高效的方式立即生成问题。除非问题也以类似的经济高效的方式进行评估，否则人工评估通常不会对 AQG 的基本属性做出贡献。这也许是人工评估者最严重的局限性。此外，缺乏报告和培训实践也对分配给问题的质量标签的有效性构成威胁。

众包是人工评估者的替代方法，可以克服我们上面讨论的人工评估者的几个局限性。众包被定义为调动人群中的能力和专业知识。因此，使用众包平台（例如亚马逊的 Mechanical Turk；Litman 和 Robinson），可以快速且经济高效地评估生成的问题，并且通常使用评分量表为众包工作者提供质量标准。虽然众包平台提供了一种经济有效的方法来评估大量生成的问题，但通过众包进行的评估的可靠性引起了人们的担忧。与道德考虑和众包工作者的代表性相关的问题进一步加剧了人们对这种评估方法的担忧。除了对众包评估质量的担忧（类似于对人类评估者的担忧）之外，缺乏标准化的报告和培训流程也是另一个重大挑战。这种缺乏结构对通过众包获得的评级的有效性和可靠性构成了严重威胁，凸显了需要采取更系统和透明的方法来确保 AQG 领域评估的稳健性。解决这些问题对于在 AQG 系统中建立众包评估的可信度和完整性至关重要。

消融研究消融研究是 AQG 系统中使用最少的评估方法，它涉及从 AQG 系统中系统地删除一个基本组件，以评估对问题生成过程的影响。这种方法允许研究人员剖析各个组件的贡献，阐明它们的相对重要性和影响力。例如，在为语言评估而设计的 AQG 系统中，消融研究可能涉及暂时禁用负责语义分析的自然语言处理模块。通过观察省略此组件如何影响系统生成上下文相关问题的能力，研究人员可以深入了解该模块在确保生成问题的质量和适当性方面的重要性。

虽然消融研究在评估 AQG 系统中被证明是有价值的，但一个显着的局限性在于，这些研究在删除特定组件时将系统的性能与自身进行比较。这种方法虽然有助于理解各个组件对系统性能的整体影响，但无法对系统生成的每个问题的质量进行细致的评估。

固有的缺点是评估结果涉及系统的集体表现，而不是对生成的每个问题的优点进行细粒度分析。为了克服这一限制，研究人员可能需要用其他评估方法来补充消融研究，以对生成的问题进行更细粒度的分析。这可能涉及采用评估单个问题的相关性、连贯性或难度的指标，从而更全面地了解 AQG 系统中问题质量的细微方面。

事后分析这组评估方法通常涉及管理从代表性样本生成的一组问题，然后使用学习者的回答数据评估问题质量。与人类评估者类似，这种方法一直是传统心理测量评估方法下问题质量评估的基础方法之一。AQG 研究人员可能会向一组学习者提出一组问题获得项目统计数据，例如难度、辨别力或干扰项功能。或者，他们可以比较 AQG 系统对学习者动机和学业成绩的影响。由于事后分析提供了有关项目质量的统计估计，因此它们不太容易受到人类判断偏差的影响。尽管如此，评估条件应该复制真实的评估设置，以尽量减少与构造无关的方差，这可能会污染获得的统计估计的质量。另一个限制是只能管理生成问题的子集，因此无法使用这种方法评估所有生成的项目，从而限制了使用事后分析评估生成问题的吸引力。

此外，这是一种资源密集型的问题评估方法，因为需要招募一组代表性学习者来获取项目统计数据。最后一个限制是问题质量是以回顾的方式获得的，这意味着在进行评估之前，问题的质量通常是未知的。这可能会给学习者带来不良后果，例如，当在评估期间提出低质量的问题时，会催化学习者的困惑和沮丧。

机器翻译指标 AQG 研究人员采用了为机器翻译和文本摘要任务开发的指标来自动评估生成的问题。这些指标通常包括 BLEU、ROUGE-L和 METEOR，并允许 AQG 研究人员比较生成问题和参考问题之间的相似性。因此，这种评估方法需要数据集中已有问题（通常是人工编写的问题）。

虽然这种方法为生成问题提供了快速且经济高效的质量指标，但在缺乏参考问题的情况下，它面临局限性。此外，依赖与参考问题的语言结构比较可能会导致精心设计但语言上不同的问题的评分不理想。因此，该方法的有效性取决于数据集中是否存在一组多样化且具有代表性的参考问题。

意义和未来方向

虽然 AQG 的基本假设是它可以即时高效地生成问题，但对所生成问题的评估是确定所生成问题可用性的核心。在本研究中，我们深入研究了用于评估 AQG 系统的常用方法固有的局限性，并阐明了这些方法持续成为 AQG 研究瓶颈的原因。这一全面概述强调了开发和采用能够有效评估 AQG 系统生成的全部问题的自动评估方法的迫切需要。为了应对当前评估方法固有的这些挑战，研究人员可以从公开分享 AQG 中受益。这对 AQG 研究人员来说是一个值得注意的机会利用公开可用的数据集，这些数据集不仅包含自动生成的问题，还包含相应的评估指标。此类数据集的纳入可以显著增强 AQG 研究成果的稳健性和适用性。例如，考虑这样一个场景：一个公开可访问的数据集包含各种自动生成的问题，并配有全面的评估指标，包括 BLEU、ROUGE-L 和 METEOR 分数。研究人员可以利用这个数据集不仅训练和验证他们的 AQG 模型，还可以对不同模型在标准化问题集上的表现进行基准测试和比较。这种方法促进了 AQG 研究的透明度和可重复性，因为它允许其他人独立评估和验证新问题生成技术的有效性。

此外，建立标准化的质量标准来评估生成的问题是至关重要的。这不仅确保了评估生成问题优点的基准，而且还促进了预训练模型的开发。反过来，这些工具可以在加快生成问题在现实世界教育环境中的实际使用方面发挥关键作用。例如，设想一套标准化的标准，不仅评估生成问题的语法正确性和连贯性，还考虑它们与特定教育目标的一致性以及促进批判性思维技能的潜力。通过纳入这些细致入微的标准，评估过程变得更加全面，并与教育的多方面目标保持一致。标准化标准还可以为持续改进和优化 AQG 模型提供框架，鼓励研究人员不断提高生成问题的质量。这个迭代过程不仅提高了 AQG 的整体标准，而且还确保技术不断发展以满足教育者和学习者的动态需求。

三月七꧁ ꧂

关注

24
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
Current Evaluation Methods are a Bottleneck in Automatic Question Generation

本研究全面回顾了基于计算语言学技术和大型语言模型的自动问题生成 (AQG) 系统质量评估的常用评估方法。在全面概述评估方法的现状的同时，我们讨论了每种方法的优点和局限性。此外，我们阐明了在教育环境中全面整合自动问题生成系统的下一步措施，以实现有效的个性化和适应性。关键词：自动问题生成、评估方法、机器翻译、众包、人工评估者、消融研究。
复制链接

扫一扫