How Good are Modern LLMs in Generating Relevant and High-Quality Questions at Different Bloom’s Skil

题目

现代LLM在为印度高中社会科学课程的不同布鲁姆技能水平生成相关且高质量的问题方面表现如何?

在这里插入图片描述

论文地址:https://aclanthology.org/2024.bea-1.1.pdf
项目地址:https://github.com/nicyscaria/AEQG-SocialSciences-BloomsSkills

摘要

    创建具有教学效果的问题对教师来说是一项挑战,需要投入大量时间和精心规划,尤其是在资源受限的经济体中。例如,在印度,高中社会科学评估的特点是死记硬背,不考虑高阶技能水平。使用大型语言模型 (LLM) 的自动教育问题生成 (AEQG) 有可能帮助教师大规模开发评估。然而,评估这些问题的质量和相关性很重要。在本研究中,我们检查了不同 LLM(Falcon 40B、Llama2 70B、Palm 2、GPT 3.5 和 GPT 4)生成不同认知水平的相关高质量问题的能力,如布鲁姆分类法所定义。我们用相同的指令和不同的上下文提示每个模型,以在印度一个州教育委员会的社会科学课程中生成 510 个问题。两位人类专家使用九项评分标准来评估语言正确性、教学相关性和质量以及对布鲁姆技能水平的遵守情况。我们的结果表明,LLM 生成的 91.56% 的问题都是相关的且质量很高。这表明 LLM 可以在不同的认知水平上生成相关且高质量的问题,这使得它们对于创建用于在资源受限的经济体中扩大教育规模的评估非常有用。

    近年来,大型语言模型 (LLM) 取得了重大进展。它们在来自互联网的大量文本数据集上进行训练,并用于各种自然语言处理任务。OpenAI 的 ChatGPT 和谷歌的 Bard 的推出使 LLM 更容易被更广泛的受众所接受,使没有自然语言处理 (NLP) 专业知识的个人能够利用它们来满足日常需求。这些模型的特点是规模庞大,能够理解和生成复杂的文本。通过指令微调,语言模型被校准以遵守用户指令。与传统语言模型相比,这些 LLM 具有零样本能力,允许它们通过简单地解释给定的指令来处理各种任务,而无需特定训练。LLM 的教育应用多种多样且前景广阔,涵盖个性化内容生成、评估和反馈。

    根据世界银行的数据,印度高中的师生比为 1:291,而中等收入国家和高收入国家的平均师生比分别为 1:18 和 1:13。这增加了教师的工作量,教学和评估的质量下降。在印度,历史等科目的教学和评估侧重于死记硬背,很少强调高阶思维技能或探究。基于探究的学习和高质量的问题可以促进学习者的深度参与和现实世界的联系。与布卢姆分类水平相一致的评估(如表 1 所示)可帮助教育工作者识别学习差距并个性化教学,但需要花费大量时间和精力来创建。自动教育问题生成系统 (AEQG) 有可能减轻这种负担,使教师能够个性化教学并提高学生的参与度。本研究调查了开源和专有 LLM 生成具有不同认知技能的高质量、上下文对齐问题以进行有效评估的能力。

在这里插入图片描述

    虽然 LLM 能够自然语言语言生成 (NLG) 任务,其输出在特定语境下可能会出现错误和不一致。这些模型也容易产生幻觉。这些问题直接影响生成的教育问题的质量,而这些问题在不同的 LLM 中可能会有很大差异。因此,评估这些问题的质量非常重要。尽管存在专注于可读性和语言方面的自动化技术,但这些方法并未解决教学方面的问题以及针对给定语境的问题适当性 (Amidei et al, 2018a)。因此,专家评估对于保证 LLM 生成问题的质量仍然至关重要。

    在本研究中,我们遵循零样本提示方法生成问题。我们提示 LLM 生成不同认知水平的问题(如布鲁姆分类法中所定义),主题涵盖 1857 年至 1947 年印度独立斗争的事件。使用五个不同的 LLM,我们总共生成了 510 个问题。两位学科专家根据九项评分标准评估了生成的问题,以考虑问题的语言和教学方面。

    这项工作调查了以下研究问题。(i)现代 LLM 能否生成不同认知水平的相关高质量教育问题并遵循提示中提供的说明?;(ii)哪个 LLM 在问题生成方面表现最佳?我们的实验和评估表明,LLM 生成的问题是相关的并且质量很好。这些 LLM 可用于 AEQG,教育者只需付出最少的努力。我们的数据集“HistoryQ”2 包含 510 个问题,由两位专家评估并使用布鲁姆分类法级别注释,将用于 AEQG 系统的开发和评估研究。

相关工作

    在 LLM 广泛采用之前,传统的自动问题生成 (AQG) 系统主要依赖于问答数据集。用于问题生成任务的主要阅读理解数据集包括 SQUAD、SQuAD 2.0 和 NQ 。用于问题生成任务的众包教育数据集之一是 SciQ 。LearningQ和 EduQG是另外两个可用于 AEQG 的流行数据集。这些数据集对所有科目都不可用,以及创建高质量数据集所需的人类专家劳动限制了开发有效 AQG 系统的能力。随着基于大型 Transformer 的预训练大型语言模型的出现,近年来 NLG 任务得到了迅速改进。预训练和微调模型(如 Text-to-Text Transfer Transformer (T5) 和 GPT3)用于问题生成。

    Leaf 是使用预训练的 T5 模型开发的问题生成。在教育文本中开发了一个预训练的 T5 模型 (EduQG),以提高生成问题的质量。大多数 AEQG 系统都是通用的,侧重于阅读理解或科学和数学。AEQG 对社会科学的研究很少。科学和数学等学科往往寻求精确、可量化、和客观答案。但对于社会科学等学科,问题可能更加主观,通常没有单一的正确答案,并且不同的人可能会有不同的解释。

    许多 AQG 系统是通过对特定数据集(例如上述数据集)上的 LLM 进行微调而构建的,它们通常会生成侧重于低阶认知技能的问题,或者只是直接从提供的上下文信息中检索答案。EduQG 中的大多数问题都属于布鲁姆分类法的前三个级别。这些问题不评估学生的高阶思维能力。布鲁姆分类法指导教育工作者制定学习目标和问题来教授和测试不同的认知技能。最近的一项工作使用 GPT4 根据布鲁姆分类法创建课程内容。尽管存在用于评估机器生成问题的自动化指标,但它们主要分析语言方面。在教育问题生成的情况下,教学要素起着至关重要的作用。专家评估对于了解机器生成问题的教学方面是必要的。此类评估也用于学生生成的问题。

方法论

    语言模型和内容,我们选择了五个最近的开源和专有 LLM 进行研究。本研究中使用的 LLM 是 Falcon 40B (falcon-40b-instruct)、Llama 2 70B (Llama-2-7b-chat-hf)、Palm 2 (chat-bison-001)、GPT-3.5 (gpt-3.5-turbo-0613) 和 GPT-4 (gpt-40613)。其中,Falcon 40B 是最小的 LLM,有 400 亿个参数,而 GPT 4 是最大的(传言,因为确切的参数数量未知)。问题是针对“历史”主题生成的,涵盖了 1857 年至 1947 年印度独立斗争的事件。我们使用了印度泰米尔纳德邦教育委员会下属学校使用的十年级社会科学教科书 Samacheer Kalvi(泰米尔纳德邦教科书和教育服务公司。教育研究和培训委员会,2022 年)的两章内容。文本是英文的。此内容作为基于生成问题的 LLM 的上下文。上下文的平均长度约为 450 个单词,相当于大约 600 个标记。使用的 LLM 的序列长度超过 1024 个标记,以适应此上下文长度和指令。我们考虑了 17 种这样的上下文,因此总共生成了近 500 个(准确地说是 510 个)问题。

    提示设计和问题生成 每个提示都有一个上下文和与之相关的说明。提示是使用模式重构、项目重构和断言(而不是否定)的技术设计的。大多数印度学生,即使是接受高等教育的学生,也只达到欧洲共同参考框架 (CEFR) 英语的 B2 级(欧洲委员会。文化合作委员会。教育委员会。现代语言司)。因此,提示中提供了额外说明,要求使用 CEFR B2 级别内的单词。这种方法将有助于学生更好地理解问题,从而减少因理解语言困难而产生混淆或误解的机会。

    我们给所有 LLM 同样的提示。每个 LLM 必须生成六个问题,每个问题对应布鲁姆分类法中与 17 个情境相对应的每个级别。每个模型生成 102 个问题,总共 510 个问题。在大多数实现中,LLM 的采样温度通常在 0 到 1 之间变化。较低的温度会导致 LLM 的输出更具确定性,优先考虑最可能的预测,而较高的温度会增加 LLM 输出的随机性,导致预测的可能性较小。使用 LLM 的 AEQG 使用 0.9 的温度值来最大限度地提高生成问题的多样性。生成提示的示例在附录 A.1 中给出。

    人工评估 两位专家根据九项评分标准(表 2)评估了 510 个问题的相关性和质量,该评分标准是 Horbach 等人九项评分标准的修改版。这两位专家拥有社会科学学科的教学知识和经验,并为多个组织做过问题生成任务。专家们以随机顺序收到 LLM 问题,仅提供上下文信息。他们被要求从上到下按层次结构回答评分标准上的每个问题。评分标准中的七个项目是“是”或“否”的回答。InformationNeeded 项目包含六个独特的选项,这些选项表明回答问题需要什么信息。社会科学中的问题可能是主观的,有时没有一个正确的答案。它们可以有多种解释。因此,InformationNeeded 除了包含来自文本本身和外部来源的信息外,还包含“读者对文本的感受/判断/…”等选项。Bloom’sLevel 项目包括 Bloom 分类认知维度中定义的不同技能,即记忆、理解、应用、分析、评估和创造。表 1 提供了有关 Bloom 技能每个级别含义的具体信息。除了“是”或“否”之外,WouldYouUseIt 评分标准项目中还添加了选项“可能”。在评估指标中,WouldYouUseIt 是最主观的。

在这里插入图片描述

    评分标准项目是按层次结构排列的(表 2),这意味着如果粗体字样的标准回答“否”,则评分标准中的后续项目将不予评估。例如,如果“可理解”、“清晰”或“可回答”标记为“否”,则不会评估该问题的后续项目,并将其标记为“不适用”。这简化了评估过程。如果专家对“可理解”、“语境相关”、“语法”、“清晰”、“可回答”和“中心”回答“是”,对“你会使用它”回答“是”或“可能”,则问题相关且质量高。此外,我们利用 Bloom’sSkill 和 CEFRLevel 来了解 LLM 是否遵循提示中提供的说明。评估人员必须为 Bloom’sSkill 指标选择 Bloom 级别。我们使用了剑桥大学在其英语档案研究 (Alexopoulou, 2008) 中开发的“文本检查器”3 来了解问题中使用的词汇的 CEFR 级别。如果评估人员给出的 Bloom’sSkill 标签与 Bloom’s Skill 标签相匹配,则 LLM 遵循提供的说明专家对 LLM 提示中的技能水平以及单词是否在 CEFRLevel 的 B2 范围内。

    由于专家对 LLM 生成问题的意见受到他们的写作风格偏好、个人信念、知识基础和对细节的关注的影响,因此使用了两个评分者间信度指标,即百分比一致性和 Cohen 的 Kappa κ。前者是专家对特定评级达成一致的次数比例,后者是一个稳健的指标,它考虑了机会一致性并提供了对专家之间真实一致性的更准确估计。Cohen 的 κ 将所有分歧视为平等,但对于序数指标 WillYouUseIt 和 Bloom’sLevel,分歧不能被视为相同。在这种情况下,我们使用二次加权 Cohen 的 κ而不是简单的 Cohen 的 κ,对重大分歧的惩罚要大于对轻微分歧的惩罚。

结果与分析

    表 2 给出了两位人类评估员对九项评分标准的百分比一致性和 Cohen’s κ 值。百分比一致性和 Cohen’s κ 值仅针对层次结构中前面的评分标准项目未标记为“否”的问题(以粗体标记)计算。这些值表明专家们对大多数指标项目达成了高度一致。可理解、语境相关、语法和中心四项具有完全一致性。 相关性和质量指标,两位专家都将 100% 的生成问题评为可理解、语境相关和语法。其中,98.82% 的问题被评为清晰,97.84% 被评为可回答。在可回答的问题中,评估人员从六个 InformationNeeded 项目中选择一个选项。评估人员表示,回答 19.22% 的问题所需的知识可以在上下文中找到,18.24% 的问题可以在上下文的不同部分找到,23.33% 的问题需要上下文信息和外部知识的结合。只有 0.2% 的问题只需要一般知识就可以回答,不需要上下文信息。13.73% 和 10.39% 的问题需要读者对文本的判断以及读者对文本的判断和外部知识,分别提供答案。专家将 95.88% 的问题评为各自背景下所涵盖主题的核心。评估人员对 91.56% 的问题的 WouldYouUseIt 评分标准项目的回答为“是”或“可能”。因此,我们说专家将 91.56% 的生成问题评为相关且高质量。

在这里插入图片描述在这里插入图片描述

    观察发现,在 Bloom’sLevel 指标中,评估人员与 LLM 的依从率为 76.53%。在 CEFRLevel 中,依从率为 87.64%(表 3)。我们将发布我们的数据集“HistoryQ”,其中包含 510 个 LLM 生成的问题,这些问题由专家使用九项指标以及 CEFRLevel 进行注释,以供社区进一步研究和分析。附录 A.2 中给出了一些基于 Bloom 分类法并遵循提示中说明的相关高质量问题的示例。

    表 4 总结了 5 个 LLM 根据不同评估标准在 AEQG 任务中的表现。我们观察到,专有模型 Palm 2、GPT 3.5 和 GPT 4(据信它们有 1750 多亿甚至数万亿个参数)在除 CEFR 水平遵守指标之外的所有标准中都优于具有 400 亿和 700 亿个参数的开源模型,因为如图 1 所示。与布鲁姆分类法水平相一致是本研究的重要标准之一。将 LLM 为生成的问题给出的技能水平与人类评分者提供的真实技能水平标签进行了比较。表 5 显示了此任务的相应精度、召回率和 F1 分数。GPT 4 的表现优于其他模型,而 Palm 2 和 GPT 3.5 则位居第二和第三。

在这里插入图片描述

结论

    我们发现不同 LLM 生成的问题中有 91.56% 是相关的并且质量很高。这表明 LLM 可以用于 AEQG,而教育者的努力最少。然而,不同 LLM 之间的性能有所不同。GPT 3.5 和 GPT 4 生成的相关和高质量问题的比例最高。在遵守布鲁姆水平的指标中,GPT 4 优于其他模型,其次是 Palm 2。相比之下,开源 LLM Falcon 40B 和 Llama 2 70B 在所有指标上表现不佳,除了遵守 CEFR 水平。这可能是由于这些专有模型的规模很大,这导致它们能够捕获和表示文本数据中的复杂模式。研究中另一个有趣的观察是,大多数模型无法在布鲁姆分类法的“应用”和“创建”级别生成高质量的问题。GPT 3.5 和 GPT 4 在所有标准中都表现出相当的表现。令人惊讶的是,GPT 4 和 GPT 3.5 与提示中要求的 CEFR 级别的一致性较差。与其他模型相比,这些模型生成的文本很复杂。

    我们的研究表明,教育工作者可以利用 Palm 2、GPT 3.5 和 GPT 4 来创建相关的、高质量的问题,这些问题具有布鲁姆分类法定义的不同认知水平,用于扩展印度的社会科学研究。必须使用从相关课程中获得的英语背景来提示 LLM。这种方法大大减轻了教师的工作量,特别是在师生比例较低的资源不足的学校环境中。此外,学生可以自己创建练习测试并找出学习差距。专家评估的“HistoryQ”可以作为涉及开发和评估 AEQG 模型的研究的训练和验证数据集,重点是高阶认知技能。

局限性

    我们的研究需要专家投入大量的时间和精力。尽管通过详细的评分标准和随机呈现 LLM 生成的问题来严格确保评估的客观性,但重要的是要认识到专家评估仍然会表现出固有的主观性,受到个人观点和偏见的影响。一个自动化系统可以评估机器生成问题的教学和语言方面的质量,从而减少这方面的时间和精力。这为探索和创建高质量的自动化评估系统铺平了道路。此外,我们的研究对所有 LLM 使用了不同背景下的相同提示。我们没有调查模型在不同提示上的表现,这些提示包含额外的信息或少量提示。这是探索 LLM 性能的另一个潜在未来方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值