Exploring the Capabilities of Prompted Large Language Models in Educational and Assessment Applicati

题目

探索提示式大型语言模型在教育和评估应用中的能力

在这里插入图片描述

论文地址:https://arxiv.org/abs/2405.11579

摘要

    在生成式人工智能 (AI) 时代,大型语言模型 (LLM) 的融合为现代教育领域的创新提供了前所未有的机会。我们开始在教育和评估应用的背景下探索提示式 LLM,以发掘其潜力。通过一系列精心设计的研究问题,我们调查了基于提示的技术在从学校级教科书中生成开放式问题的有效性,评估了它们在从本科级技术教科书中生成开放式问题的效率,并探索了采用思路链启发的多阶段提示方法生成与语言无关的多项选择题 (MCQ) 的可行性。此外,我们还评估了提示式 LLM 在语言学习方面的能力,以资源匮乏的印度语言孟加拉语为例,解释孟加拉语语法错误。我们还评估了提示式 LLM 评估人力资源 (HR) 口头面试记录的潜力。通过将 LLM 的能力与人类专家在各个教育任务和领域的能力进行对比,我们的目标是阐明 LLM 在重塑教育实践方面的潜力和局限性。

    在当今技术飞速发展的时代,生成式人工智能模型(尤其是 LLM)的整合代表了教育实践和评估方法的关键转变。这些由生成式人工智能驱动的 LLM 对自然语言有着深刻的理解,拥有强大的计算能力,在学习促进和学生评估方面都具有巨大的变革潜力。我们的研究着手彻底探索 LLM 在各种教育和评估环境中的使用情况,重点是阐明其功效并确定有待改进的领域。我们的目标是解决关键的研究问题,努力发掘 LLM 的多方面潜力,同时承认其整合中固有的复杂性和挑战。

    我们的调查强调使用提示方法,旨在通过提供额外信息(称为“提示”)来指导其生成过程,从而增强 LLM 在后续任务中的能力。最近,提示的使用在不同的自然语言生成任务中引起了广泛关注,例如摘要、机器翻译等。通过严格的检查和分析,我们的目标是为围绕生成式 AI 模型在教育中的整合的持续讨论做出有意义的贡献,提供细致入微的见解,为未来的研究工作和教育实践提供参考。

相关工作

    本研究探索了各种基于提示的问题生成 (QG) 策略。整理 KHANQ 数据集,将每个数据样本分为 <上下文、提示、问题> 三元组,并使用 BERT 生成、BART、GPT2和 UniLM 等 LLM 研究基于提示的 QG。KHANQ 中使用的提示是根据学习者的背景知识和对主题的理解量身定制的。尽管 KHANQ 数据集具有相当大的价值,但作者迄今尚未将其公开。利用基于提示的微调来制定多跳问题。该方法包括一系列任务,从 QG 开始,然后过渡到问答 (QA),该过程以迭代方式执行以改进 QG 过程。T5 用于训练 QG 和 QA 模型。此外,还实施了问题释义以增强该方法的稳健性。最后,采用基于提示的微调来生成高质量的问题。

    他们通过选择与准确答案相关的相关单词来生成提示,并在 HotpotQA、SQuAD和 Quora Question Pairs 数据集上评估了他们的模型。利用 LLM 的自动化 QG 的最新研究 使用了单跳 QA 数据集(例如 SQuAD)和多跳 QA 数据集(例如 HotpotQA)。这些 QA 数据集由 <上下文、问题、答案> 三元组组成,其中 Context 表示上下文文档,Question 是人类提出的查询,Answer 是其相关响应。当前的 QG 方法也受益于 QA 数据集的可用性,例如 Natural Questions 语料库、QuAC、TriviaQA、NewsQA、QG-STEC等。然而,值得注意的是,我们已经确定了现有数据集中的几个局限性:

  • 如中强调的那样,这些数据集在生成简单的事实问题方面受到限制。
  • 许多这些 QA 数据集来自开放获取平台,例如维基百科文章。通常,它们缺乏教育方面,不需要高阶认知技能来回答它们。

    此外,还没有探索提示式 LLM 从教育教科书中生成开放式问题的能力。
在多语言环境中生成 MCQ,特别是对于资源匮乏的语言,对于克服语言障碍、提高可访问性和促进边缘化社区的教育至关重要。尽管之前的研究针对英语进行了研究,包括在 DG-RACE 数据集上微调 T5 模型以生成 MCQ 的干扰项,但目前还没有针对多语言环境(如德语、印地语和孟加拉语)的研究,其中使用基于编码器-解码器的模型来生成干扰项。此外,目前还没有关于 MCQ 生成的研究,研究思路链启发的基于提示的方法在各种语言中生成 MCQ 的潜力。

    尽管人们对语法错误纠正 (GEC) 的兴趣日益浓厚,而且英语、汉语、德语 、俄语、西班牙语等主要语言的 GEC 数据集也日益丰富,但专门为孟加拉语等资源匮乏的语言设计的真实世界 GEC 数据集却明显短缺(尽管孟加拉语是全球第七大语言)。如所述,当前的合成孟加拉语 GEC 数据集缺乏真实性和多样性,无法代表真实世界中语言使用的复杂性。虽然目前已有针对孟加拉语的 GEC 研究,但在这一特定背景下的反馈或解释生成领域尚未做出任何努力。此外,GEC 中还没有研究评估生成式预训练 LLM(如 GPT-4 Turbo、GPT-3.5 Turbo、Llama-2 等)对孟加拉语等低资源语言的潜力。

    最近的研究探索了语音评分的各个方面,例如评估响应内容。这涉及对从响应转录中提取的特征以及相应的问题进行建模,以衡量响应相关性。在此基础上,通过整合声学提示和语法特征来改进他们的方法,以提高评分准确性。在最近的一项调查中,使用语音和文本转换器 来评估候选人的语音。据我们所知,还没有研究调查过将最先进的 LLM 用于自动化人力资源 (HR) 面试评估。此外,早期在自动化语音评分主要侧重于评分,很少强调错误检测和提供反馈以及改进建议。

研究问题

    在本节中,我们提出了指导我们研究提示式 LLM 在不同教育和评估环境中的能力的关键研究问题。 这些研究问题是焦点,旨在评估 LLM 与人类专家在不同任务和领域中的有效性。 我们就一系列不同的教育主题解决了以下研究问题 (RQ),如下所述。

  • RQ1:与人类专家相比,基于提示的技术在多大程度上有效地使用来自学校级教科书的 LLM 生成开放式问题?
  • RQ2:与人类专家相比,基于提示的技术在多大程度上有效地使 LLM 能够从本科级技术教科书中生成开放式问题?
  • RQ3:是否可以开发一种受思路链启发的多阶段提示方法来使用基于 GPT 的模型生成与语言无关的多项选择题?
  • RQ4:与人类专家相比,预先训练过的 LLM 在多大程度上能够解释孟加拉语语法错误?RQ5:与人类专家相比,预先训练过的 LLM 在评估人力资源口头访谈记录方面有多大准备?

当前研究进展

    在本节中,我们讨论了当前在解决上述研究问题方面取得的研究进展。与人类专家相比,基于提示的技术在使用来自学校级教科书的 LLM 生成开放式问题方面有多有效?为了回答这个研究问题,我们建议与人类专家相比,检查基于提示的方法在使用来自学校级教科书的 LLM 生成开放式问题的有效性。基于提示的技术需要提供文本提示或提示,以指导 LLM 制定与给定上下文一致的问题。这些提示充当 LLM 提出相关且连贯的问题的信号。我们的研究旨在调查这些基于提示的技术在生成针对教育背景的描述性和推理性问题方面的有效性。

    在我们的方法论中,我们通过整理一个名为 EduProbe 的新数据集来解决现有 QA 数据集在教育环境中基于提示的 QG 不足所带来的挑战。该数据集专门针对学校级科目(例如历史、地理、经济学、环境研究和科学)进行了调整,并利用了丰富的内容NCERT1 教科书的样本。数据集中的每个实例都用四元组注释,包括:

  • 上下文:作为问题制定基础的片段,
  • 长提示:包含上下文核心主题的扩展文本提示,
  • 短提示:上下文中关键信息或焦点的浓缩表示,以及
  • 问题:与上下文一致并与提示一致的问题。

    不同的提示不仅可以加快创建问题的过程,还可以通过为 LLM 提供额外指导,指导他们在创建问题时应该更加重视哪些信息,从而提高问题的整体质量和多样性。我们通过微调预先训练的基于 Transformer 的 LLM(包括 PEGASUS、T5 和 BART,探索了各种基于提示的 QG 技术(例如,长提示、短提示和无提示)。此外,我们使用零样本提示方法检查了两个通用预训练 LLM,text-davinci-003和 GPT-3.5 Turbo 的性能。

    通过自动评估,我们证明 T5(带有长提示)的表现优于其他 LLM,尽管它没有达到人类基线。有趣的是,text-davinci003 在各种提示设置中始终表现出优于其他 LLM 的结果,甚至在人类评估标准中超越了它们。然而,基于提示的 QG 模型大多低于人类基线,表明需要进一步探索和改进这一领域。与人类专家相比,基于提示的技术在多大程度上有效地使 LLM 能够从本科技术教科书中生成开放式问题?为了解决这个研究问题,我们深入研究了与人类专家相比,基于提示的技术在促进 LLM 从本科技术教科书中生成开放式问题方面的有效性。我们的研究重点是技术领域各种开放式问题的自动生成,这一领域在教育 QG 研究中相对较少被探索。

    为了促进我们的研究,我们从本科技术教科书中精选了 EngineeringQ,主题包括操作系统和计算机网络等。该数据集专为基于提示的 QG 设计,由以下三元组组成:

  • 上下文:问题的来源片段,
  • 提示:指导 QG 的简洁而具体的关键短语,
  • 问题:与上下文和提示一致的问题。

    我们在 EngineeringQ 上评估了几种经过微调的基于编码器-解码器的 LLM,例如 Pegasus、BART、Flan-T5 和 T5。此外,我们还使用零样本提示方法探索了通用解码器专用 LLM(如 GPT-3.5 Turbo、text-davinci003 和 GPT-4 )的潜力。我们的评估涉及自动指标和领域专家的人工评估。此外,我们通过精细化测试检查了 LLM 的领域适应能力。对表现最佳的 LLM 在学校级科目(例如历史、地理、经济学、环境研究和科学)上进行调整,并评估其在本科级计算机科学和信息技术科目(例如操作系统和计算机网络)上进行零样本和少样本 QG 的有效性。为了衡量问题的复杂性,我们采用了布鲁姆修订的分类法,以增强我们对其教育意义的理解。

    实验结果表明,T5LARGE 在自动评估指标方面优于其他 LLM,而 textdavinci-003 在人工评估指标方面表现出色。然而,这两种情况下的 LLM 都达不到人类基线,凸显了进一步完善和探索这一领域的必要性。能否开发一种受思路链启发的多阶段提示方法来使用基于 GPT 的模型生成与语言无关的多项选择题?为了回答这个研究问题,我们提出了一种新颖的思路链启发式多阶段提示策略,利用基于 GPT 的模型来制作与语言无关的 MCQ。这种方法称为多阶段提示方法 (MSP),利用了 text-davinci-003 和 GPT-4 等 GPT 模型的优势,这些模型以在各种自然语言处理任务中的熟练程度而闻名。

    我们提出的 MSP 技术整合了思路链提示的创新概念,其中 GPT 模型接收一系列相互关联的线索来指导 MCQ 生成过程。我们在不同语言的多个数据集上评估了我们提出的与语言无关的 MCQ 生成方法。SQuAD 用作英语 (En) 的 MCQ 生成数据集,而 GermanQuAD 用于德语 (De)。对于印地语 (Hi) 的问题,我们使用了 HiQuAD [23];对于孟加拉语 (Bn),我们使用了 BanglaRQA。通过自动评估,我们始终证明 MSP 方法优于传统的单阶段提示 (SSP) 基线,这在生成对有效 MCQ 至关重要的高质量干扰项方面显而易见。

    此外,我们的一次性 MSP 方法增强了自动评估结果,有助于改进多种语言(包括英语、德语、孟加拉语和印地语)的干扰项生成。在人工评估中,使用我们提出的 MSP 方法生成的问题对于高资源语言(例如 En、De)表现出更高的语法性、可回答性和难度水平,突显了其在不同语言环境中的有效性。然而,可能需要进一步研究和微调基于 GPT 的模型,以改善低资源语言(例如 Hi、Bn)的结果,并减少与高资源语言(例如 En、De)在自动和人工评估标准中的差异。

    与人类专家相比,预先训练的 LLM 在多大程度上能够解释孟加拉语语法错误?GEC 工具由先进的生成式 AI 驱动,擅长纠正用户输入中的语言错误。然而,它们往往缺乏提供必要的自然语言解释,而这对于语言学习和语法规则的理解至关重要。特别是在孟加拉语等资源匮乏的印度语言中,对这些工具的探索有限,因此需要语法错误解释 (GEE) 系统,它不仅可以纠正句子,还可以提供错误解释。

    为了解决这个研究问题,我们建议调查预训练的 LLM(包括 GPT-4 Turbo、GPT-3.5 Turbo、text-davinci-003、text-babbage001、text-curie-001、text-ada-001、llama-2-7b、llama-213b 和 llama-2-70b)在解释孟加拉语语法错误方面与人类专家相比的熟练程度。我们引入了一个来自孟加拉语论文、社交媒体和新闻等各个领域的现实世界多领域数据集,作为 GEE 系统的评估基准。该数据集有助于在一次性提示设置中对各种预训练的 LLM 与人类专家进行性能比较评估。

    我们有条不紊的实验程序涉及 LLM 和人类专家,他们独立执行两项关键任务。首先,他们的任务是通过检测和纠正所提供句子中的错误来生成准确的孟加拉语句子,确保语法正确性和上下文适当性。其次,对于每个纠正的错误,他们都需要对错误类型进行分类,并提供有关所解决的语法、句法或语义问题的简明解释。

    我们的研究强调了当前最先进的预训练 LLM 在孟加拉语 GEE 中的自动部署的局限性。我们提倡人工干预,建议整合人工检查以改进孟加拉语的 GEC 工具,强调语言学习的教育方面。与人类专家相比,预先训练过的 LLM 在评估人力资源口头面试记录方面准备得如何?为了解决这个研究问题,我们建议详细检查与人类专家相比,预先训练过的 LLM 在评估人力资源 (HR) 口头面试记录方面的准备情况。我们的全面分析涵盖了一系列著名的预训练 LLM,包括 GPT-4 Turbo、GPT-3.5 Turbo、text-davinci-003、text-babbage-001、text-curie-001、text-ada-001、llama-2-7b、llama-2-13b 和 llama-2-70b,评估它们在模拟 HR 面试期间为候选人提供分数、错误识别以及提供反馈和改进建议的表现。

    我们引入了一个名为 HURIT(人力资源面试记录)的数据集,其中包含从真实场景中收集的 HR 面试记录。该数据集包括从 L2 英语使用者获得的人力资源面试记录,主要以亚洲地区进行的面试为特色。这些记录来自模拟人力资源面试,学生在面试中提供答案。答案以 .mp3 格式捕获,随后使用 OpenAI 的 Whisper large-v2 模型转录为文本。该数据集有助于在零样本提示设置中对各种预训练的 LLM 与人类专家进行评估,以比较其性能。

    我们的方法涉及一个结构化的评估程序,其中 LLM 和人类评估员独立评分、识别错误并对 HR 面试记录提供建设性反馈。这种综合方法可以全面评估每个 LLM 的表现,包括其评分准确性、错误检测和反馈提供。此外,我们还根据各种人类评估标准(例如流利度、连贯性、语气/礼貌、相关性、简洁性和语法性)将它们的能力与专家人类评估员的能力进行了比较。

    我们的研究结果强调了预训练的 LLM,特别是 GPT-4 Turbo 和 GPT-3.5 Turbo,在提供与专家人类评估员提供的评估相当的评估方面的能力。然而,虽然这些 LLM 在评分候选人方面表现出色,但它们往往难以识别错误并提供可操作的反馈来提高人力资源面试的表现。我们的研究强调,虽然预先训练过的 LLM 在某些方面表现出色,但它们还没有完全具备在人力资源面试评估中自动部署的能力。相反,我们提倡一种人机交互的方法,强调人工检查的重要性,以解决不一致的问题并提高所提供反馈的质量,为人力资源面试评估提供更可行的策略。

结论

    我们的研究解决了关于将 LLM 整合到教育和评估应用中的关键研究问题。我们调查了使用 LLM 从学校级教科书中生成开放式问题的提示型技术的有效性,强调了与人类专家相比有希望但不完美的表现。尽管取得了进步,但 LLM 在从本科级技术教科书中生成开放式问题方面仍难以匹敌人类的专业知识,这表明仍有待改进。此外,我们提出的用于编写语言无关的 MCQ 的 MSP 方法是必要的,这表明需要进一步研究和微调 GPT 模型,以改善资源匮乏的语言(例如 Hi、Bn)的结果。此外,我们对 LLM 解释孟加拉语语法错误的能力的探索揭示了不足之处,强调了人为干预的重要性。最后,虽然 LLM 在评分人力资源面试记录方面表现出色,但他们在错误识别和反馈提供方面遇到了挑战,这强调了人工监督的必要性。总体而言,我们的研究强调了 LLM 在教育和评估应用中的潜力,但强调了持续进行研究和改进以充分利用其能力的必要性。在博士生联盟中,我们期待收到有关我们研究进展现状的建议和反馈。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值