Analysis of LLMs for educational question classification and generation

题目

面向教育问题分类和生成的线性模型分析

在这里插入图片描述

论文地址:https://www.sciencedirect.com/science/article/pii/S2666920X24001012

摘要

    像ChatGPT这样的大型语言模型(LLM)在生成教育内容(包括问题)方面显示出了前景。本研究评估了LLMs在分类和生成教育类问题方面的有效性。我们使用一个由4,959个用户生成的问题组成的数据集来评估ChatGPT的性能,这些问题分为10个类别,采用了各种提示技术,并用投票方法汇总结果以增强鲁棒性。此外,我们评估了ChatGPT在从五本在线教科书中的100个阅读部分中生成特定类型问题的准确性,这些阅读部分由人工评估人员进行人工审查。我们还根据学习目标生成问题,并将它们的质量与人类专家精心制作的问题进行比较,并由专家和众包参与者进行评估。我们的研究发现,ChatGPT在零镜头分类中实现了0.57的宏观平均F1值,当与使用嵌入的随机森林分类器结合时,提高到0.70。最有效的提示技巧是添加定义的零镜头,而少镜头和少镜头+思维链方法表现不佳。投票方法增强了分类的鲁棒性。在生成特定类型的问题时,ChatGPT的准确性低于预期。然而,ChatGPT生成的问题和人工生成的问题之间的质量差异在统计上并不显著,这表明ChatGPT在教育内容创作方面的潜力。这项研究强调了法学硕士在教育实践中的变革潜力。通过有效地分类和生成高质量的教育问题,LLMs可以减少教育工作者的工作量,并实现个性化的学习体验。

引言

    问题在教育领域占据着核心和不可或缺的地位,是促进理解和知识获取的基本工具(Chin & Osborne,2008)。这些问题涵盖了一系列的难度和有用性,其中一些比另一些更适合学习。提出有价值问题的能力不仅需要语言能力,还需要对教学目标的深刻理解(Nappi,2017)。这个过程需要大量的脑力劳动和对学习过程的深刻理解。为了应对与问题制定相关联的复杂性,不仅能够分析问题而且能够自动生成问题的系统的主张在教育领域中作为有价值的资源出现。这种系统有可能通过促进创建结构良好且在教学上有效的问题来减轻教育者和学习者的负担。历史上,自动问题生成(AQG)严重依赖于基于规则的方法。这些方法使用手工语言*对应的作者。

    规则和资源,如词性(POS)标签和语法标签,将陈述句转换成问题(Haris & Omar,2012;海尔曼和史密斯,2010年)。虽然这些方法可以生成语法正确的问题,但它们需要大量的人工努力和语言专业知识,这限制了它们在不同教育内容中的可扩展性和适应性。基于神经的方法的出现标志着AQG的重大转变(Zulqarnain等人,2021;杜等,2017)。这些方法利用大型数据集和先进的机器学习算法来识别模式,并比基于规则的方法更有效地生成问题。尽管取得了这些进步,神经模型仍然面临着一些挑战。他们经常努力从长阅读文章和抽象答案中产生问题。此外,许多神经模型主要针对低级问题进行训练,这限制了它们创建更复杂和认知要求更高的问题的能力(Al Faraby等人,2023)。

    在自然语言处理(NLP)的大背景下,LLMs的出现是基于神经网络的方法引入了一种范式转变。这些模型的特点是对大量文本语料进行大量的预处理,在各种自然语言处理应用中得到了广泛的关注和利用。一些众所周知的实例包括生成预训练变压器(GPT)(布朗等人,2020年),大型语言模型元人工智能(LLaMA)(图夫龙等人,2023年),以及路径语言模型(PaLM)(乔德里等人,2022年)。选择LLM进行这项研究的理由在于,它们能够在包括长上下文在内的各种上下文中理解和生成类似人类的文本,这使它们成为教育应用的理想候选对象。鉴于它们的普遍性和多功能性,研究它们在用于教育问题时的表现变得至关重要。这项研究在今天的NLP研究中意义重大,因为它旨在了解这些模型如何在教育中受益。

    尽管取得了这些进步,但目前的研究仍存在一些具体的差距。虽然逻辑思维模式可以产生在句法和语义上更好的问题,但是这些问题的质量和教学效果还没有得到彻底的评估。此外,LLM提出与教育目标相一致的问题并激发批判性思维的能力仍未得到充分开发。问题分类是增强教育工具的另一个重要方面。有效的分类可以通过根据各种类型对问题进行分类来帮助组织和评估教育内容,例如Bloom的分类法(Bloom,1956年)和Graesser的问题类型学(Graesser & Person,1994年)。这种能力不仅对于提高问题的多样性和可用性至关重要,而且对于确保问题生成后的精确性也至关重要。

    自动问题分类和AQG可以显著改善教学和学习环境。这些系统可以无缝集成到网站或阅读软件中,通过根据当前页面即时生成问题,将阅读体验从被动转变为互动,从而促使读者积极参与材料(Syed等人,2020年)。此外,该系统允许定制适合个人学习需求的问题,使学习者能够通过接收与其熟练程度匹配的问题来关注需要改进的领域(Srivastava & Goodman,2021)。此外,设计良好的自动化问题可以通过鼓励学生分析信息并将知识应用到现实世界的场景中来促进批判性思维。除了回答自动化问题之外,学生还可以通过观察提供的例子来学习自己制定关键问题,从而提高他们提出更有见地和有效的问题的能力(Hofstein等人,2005)。

    鉴于这些因素,本研究旨在对大型语言模型在分类和生成教育问题方面的表现进行全面评估。通过实证评估和分析,本研究旨在了解这些模型在教育提问领域的优势和局限性。最终,目标是提供如何在教育环境中有效使用这些模型的信息和指导。具体来说,本文提出的研究问题如下:

RQ1:逻辑思维模式在教育类问题分类中的效果如何?了解LLM在教育环境中的分类性能对于评估它们在分类和组织教育内容中的适用性和可靠性是必不可少的。这些知识对于开发能够自动对问题进行分类的系统以及潜在地增强自动问题生成系统是至关重要的。

RQ2:LLM在生成特定类型的问题时有多准确?评估LLM在生成特定类型的问题时的准确性有助于评估它们生成相关和有针对性的教育内容的能力。这对于确保生成的问题对于不同的教育场景是有用的和合适的,增强了学习体验。

RQ3:与人类专家提出的问题相比,LLMs提出的问题质量如何?将LLM生成的问题与人类专家创建的问题进行比较,可以深入了解LLM在制作高质量教育内容方面的有效性。这有助于确定LLM的优势或需要改进的领域,指导未来在教育环境中的增强和应用。

图一 问题分类任务的研究设计
在这里插入图片描述

相关工作

    本文中的相关工作涵盖了自动问题生成、教育问题分类以及大型语言模型(LLM)在教育环境中的应用的各个方面。这些相互关联的主题共同通报了研究的当前状态,并突出了在利用人工智能进行教育方面的进步和挑战。自动问题生成(AQG)自动问题生成(AQG)是从输入上下文中生成句法流畅且语义相关的问题的过程。历史上,问题生成的研究主要依赖于基于规则的方法。这些方法利用手写规则、语言特征(如词性(POS)标签、实体和语法标签)和语言资源(如WordNet),这些都需要对语言学有深入的理解(Ali et al,2010;米特科夫和勒安,2003年;海尔曼&史密斯,2010年;Mostow和Chen,2009年)。基于规则的AQG方法通常侧重于使用句法模式和语义约束将陈述句转换成问句。例如,Heilman和Smith (2010)开发了一个使用手工规则从陈述句中生成问题的系统,强调了句法转换规则和词汇资源的重要性。虽然这些方法在某种程度上是有效的,但需要大量的人工努力和专业知识,这限制了它们对不同教育内容的可扩展性和适应性。

    基于神经的方法的出现标志着AQG的重大转变。这些方法利用大型数据集和机器学习算法来更有效地学习模式和生成问题。杜等人(2017)为引入了一个端到端、序列对序列(seq2seq)系统,该系统利用了具有注意机制的递归神经网络(RNNs)。在SQuAD数据集上进行训练(Rajpurkar等人,2016年),该模型显示了对基于规则的系统的显著改进,与Heilman和Smith (2010年)获得的11.18分相比,获得了12.28分的BLEU4分。然而,基于RNN的seq2seq模型面临着与计算成本和处理长距离依赖性相关的挑战。转换器的引入和对大量文本数据集的预训练解决了这些问题。例如,基于BERT的递归模型(Chan & Fan,2019)在BLEU4评分方面取得了显著提高,达到22.17分。此外,基于transformer的文本生成模型的专门预训练和微调框架获得了更高的BLEU4分数26.95 (Xiao等人,2020)。这些进步利用先进的预训练和微调技术来增强自然语言生成过程,从而产生在语法和语义上都更优越的问题。

    尽管取得了这些进步,评估生成问题的质量仍然具有挑战性。传统的自动指标,如BLEU和ROUGE,往往无法捕捉问题质量的细微差别,需要人工评估进行更全面的评估(Mathur等人,2020;Sultan等人,2020)。由于自动化度量的局限性,许多研究还包括人工评估,侧重于自然性(流利性、相关性和可回答性)、难度等标准(Du等人,2017;Chan & Fan,2019;毕等,2021)和乐于助人(程等,2021;Sekuli等人,2021年)。然而,缺乏标准化的评估方法使得跨研究的结果比较困难。评估通常涉及专家、众包参与者或作者,他们根据特定标准评估问题并分配分数。一些研究还比较了人类提出的问题和人工智能提出的问题之间的偏好。出于教育目的,Horbach等人(2020)提出了一个全面的人类评估方案,该方案使用九个标准评估生成的问题的质量,考虑它们对教育背景的相关性、复杂性和重要性。这种分层评估方法突出了领域专家提出的问题的价值,确保了它们在教育环境中的教学效果。

    教育问题分类以改进教育工具为主题,问题分类在组织和评估教育内容方面起着至关重要的作用。费等(2003)对教育问题分类的基础研究之一是将多项选择题分为三个难度等级:易、中、难。他们利用神经网络以及语言特征,如术语频率和问答长度,取得了令人印象深刻的78%的F1分数。与此同时,其他研究人员专注于根据布鲁姆的分类法对问题进行分类。例如,Haris和Omar (2012)在135个问题的小数据集上使用了基于规则的分类器,实现了77%的f 1分数。类似地,Yahya和Osman (2011)在六个类别的190个问题上采用了TF-IDF特征和SVM分类器,达到了87.4%的准确率,但由于召回问题,f1得分较低,为44.64%。最近,Mohammed和Omar (2020)应用TFPOS-IDF和预训练的word2vec作为特征提取器,并试验了KNN、线性回归和SVM分类器。SVM分类器产生了最高的性能,加权F1分数为89.7%。

    除了Bloom的分类法,Graesser的类型学也探讨了问题分类。曹和王(2021)从在线论坛收集了用户生成的问题,并根据Graesser的类型学将5000个数据点标记为10种问题类型。通过利用预先训练的RoBERTa模型,他们获得了0.80的宏观F1分数。这项工作强调了高级预训练模型在处理不同问题类型和提高分类性能方面的有效性。

    LLMs在教育中的应用将焦点转移到LLMs在教育中的更广泛应用,这些模型以其巨大的能力彻底改变了该领域。LLM是预训练语言模型(PLM)的发展,具有更大的模型规模、更多的数据和更长的训练时间。除了改善下游任务的表现,逻辑思维模式还表现出新的能力(应急能力),如情境学习、指令跟随和逐步推理(赵等,2023)。有了这些新的能力,它们的使用已经变得广泛,特别是在教育领域。例如,ChatGPT是最著名的LLM之一,已被证明能够提供与临床教育相关的主题的有效见解,有助于学习(Kung等人,2023)。翟(2023)证明了ChatGPT能够做出满足某些性能期望的评估。阿卜杜勒哈尼等人(2022)采用GPT-3来产生线索,以提高小学儿童的提问技能。这些研究强调了LLM支持各种教育任务的潜力,从提供解释和反馈到生成教育内容。

    教育问题分类和生成中的LLM连接了关于AQG和教育问题分类的讨论,最近的研究评估了各种教育任务中的LLM,突出了它们的能力和局限性。例如,Koto等人(2023)评估了LLM在回答64个不同任务和教育水平的问题时的表现,发现虽然ChatGPT等LLM在初级水平上表现良好,但他们的表现在不同任务和水平上有所不同。同时,Kasneci等人(2023);Crompton和Burke (2024)讨论了将ChatGPT用于教育目的的机遇和挑战,包括问题生成。然而,这些讨论缺乏对生成问题的质量和有效性的深入实验分析。

    为了探索ChatGPT在问题生成方面的潜力,Cooper (2023)让ChatGPT参与了一次对话,并让它根据给定的主题生成多项选择问题。尽管他们的方法是相关的,但这项研究缺乏严格的实验分析。类似地,肖等人(2023)关注于生成用于阅读理解的短文和选择题,但他们生成的问题被批评为表现出明显的模式,过于直接,缺乏变化。最后,Olney (2023)专注于从教科书中生成多项选择问题,并将它们与人工生成的问题进行比较,提供了对ChatGPT生成的问题质量的见解,但没有彻底的实验设置。这些研究共同强调了LLM在教育问题生成方面的潜力,但也强调了需要进行更深入的分析和实验,以提高生成问题的质量和有效性。

    据我们所知,还没有专门的研究关注使用LLM进行问题分类。然而,对于一般的文本分类,Sun等人(2023)证明了LLMs可以在几个基准数据集上达到最先进的性能。这表明,虽然LLM还没有被明确地研究用于问题分类,但它们在文本分类中表现出的能力表明了这种应用的前景。需要进一步的研究来探索和验证LLMs在教育问题分类中的有效性,这可以显著提高教育评估的效率和准确性。

方法

    这一部分明确地将每个研究问题与提取的具体特征、使用的方法和如何进行分析联系起来。

表1问题生成提示的图示,该提示从单个阅读部分生成多个问题。
在这里插入图片描述

    RQ1:LLM在分类教育类型问题中的有效性提取特征:为了评估LLM在分类教育类型问题中的有效性,我们提取了几个特征:1 .分类性能(F1分数):我们使用宏观平均F1分数来衡量LLM的整体性能,该分数将精确度和召回率结合到一个反映分类准确性和完整性的单一指标中。高F1分数表明LLM在准确分类教育类问题方面的有效性,提供了对其性能的平衡测量。提示技术的影响:我们比较了不同提示技术的有效性,以确定它们对分类准确性的影响。提示技术包括:只包含分类说明和问题类型列表的基本零镜头提示。

    除了基本说明之外,还包括对每种问题类型的描述。利用少量学习的提示,包括分类说明、问题类型列表、详细描述和每个问题类型的示例,以提高模型的理解和准确性。带有思维链(CoT)的简短学习提示,类似于之前的提示,但增加了CoT鼓励更详细的推理和改进性能的技术。通过分析每个提示的分类性能,我们可以确定产生最高准确性的提示技术。这种分析有助于我们理解额外信息对模型性能的影响,例如描述、例子和思维链(CoT)技术。最终,这揭示了分类教育型问题的最有效的提示技术,指出了指导LLM提高性能的最佳方式。

    投票方法的有效性:我们分析了使用投票方法来聚合来自多个提示的结果的影响,旨在通过减少随机影响来提高分类的鲁棒性和准确性。分析显示了投票方法是否增强了LLM的分类性能,表明其在提高模型预测的准确性和可靠性方面的有效性。对自生成问题进行分类的准确性:确保AQG准确性的一个方案是通过后置过滤(Heilman & Smith,2010)。通过对生成的问题进行分类,可以实现后过滤。生成的问题的特征可能不同于用户生成的问题,因此也需要测试LLMs的有效性。这确保了该模型在不同情况下的稳健性和准确性,从而验证了其在AQG系统中的实用性。

    方法:回答第一个研究问题的方法如下,如图1所示:准备评估数据集:该问题分类任务中使用的数据集由用户生成的问题组成,这些问题根据Graesser的分类法分为10个类别,由曹和王(2021)提供。在总共4595个问题和标签中,我们使用分层方法进行了80:20的分割,以确保每个标签的比例一致。20%子集用于通过提示来评估分类性能。剩下的80%作为其他分类技术的训练数据,与提示技术进行比较。第三个(少量拍摄)和第四个(少量拍摄和成本)提示中使用的示例也是从这种拆分中提取的。该数据集的标签统计数据显示克里彭多夫𝛼为0.67,表明注释者对所有样本的一致程度中等(Marzi等人,2024)。在测试数据的上下文中,两个注释者在他们的首选上的一致率为69.7%(992个中的691个)。此外,考虑到在任何选择上的一致性,两个注释者显示出77.6%的较高的一致率(992个中的770个)。

    这些数字强调了贴标过程的可靠性和一致性。然而,值得注意的是,标签协议并不完美,这表明由于注释者的解释或某些问题固有的模糊性而存在潜在的偏差。此外,我们承认数据集的代表性有限。由于数据来源于在线问答论坛,它可能无法完全捕捉广泛的教育问题,特别是那些在正规教育环境中常见的问题。提示和分类:研究表明,LLM对提示变化不具有鲁棒性(Mizrahi等人,2023;顾等,2023)。LLM的性能随着提示的微小变化而变化很大,比如解释,即使它们在语义上是等价的。为了提高LLMs在这个问题分类任务中的健壮性,我们为四种提示技术中的每一种创建了六种不同的提示,总共有24种提示。这些变化在说明的措辞和结构上有所不同。这种方法是基于自我一致性的概念,通过采样多个输出(王等,2022)和多样化的技术,多样化的提示和使用投票来提高绩效(李等,2023)。自洽性和多样性都会产生多条推理路径,这些路径组合起来形成最终答案。

    然后使用这些提示对评估数据集中的每个问题进行分类。我们选择OpenAI提供的LLM模型作为我们的主模型,这是因为它的卓越性能,以及它的可访问API允许我们在没有手动干预的情况下部署模型。对于这个任务,我们使用了API的默认参数,手动探索产生了令人满意的结果。纠正输出:在基于提示的分类环境中,通常需要执行后处理来得出最终答案。LLM生成的响应可能表现出各种需要进一步改进的特征。这些特征可能包括与指定标签没有明确关联的单词的存在、与标签规范相比单词形式的变化、多个答案的提供、或者ChatGPT没有将响应分类在这些“其他”标签中的117个(75%)出现在prompt-4的第二个变体中,这表明ChatGPT无法将问题归类到预定义的标签之一。这个问题可能是思维链(CoT)过程中多个步骤的负面副作用,最终导致ChatGPT的混乱。总的来说,这些统计数据表明ChatGPT的输出通常不需要复杂的后处理。

    使用投票聚合分类:为了聚合所有六种提示的输出,如步骤2中所述,我们使用了投票方法。投票过程包括以下步骤:收集输出:从给定问题的每个提示中收集分类输出。确定共识:确定产出中最常出现的分类。如果出现平局,则选择与第一次出现相对应的标签。最终分类。将共识确定的分类指定为最终标签。性能分析:我们将模型的分类与评估数据集中可用的人类标签进行了比较。然后我们计算了每个班级的F1分数。为了获得整体表现,我们使用宏观平均法汇总了所有班级的F1分数。

    值得注意的是,对于此多类别分类任务,F1分数是针对每个类别单独计算的,然后使用宏平均法进行平均,以提供所有类别的综合性能指标。我们选择了宏观平均法,因为每个类别的数据比例差异很大,从低至3%到高达20%不等,以确保整体性能不受多数类别的支配。我们计算了每个提示变化的性能,以及投票方法的最终提示。

    RQ2:LLM在生成类型特定问题中的准确性提取特征:为了评估LLM在生成类型特定问题中的准确性,我们分析以下关键特征:

  1. 生成的问题类型的准确性:此特征衡量生成的问题与提示中指定类型的匹配程度。它评估模型产生符合要求的教育类别的问题的能力,例如比较、程序或因果问题。这种分析对于评估LLM在准确生成特定类型问题方面的性能至关重要。
  2. 生成序列对准确性的影响:LLMs可以从一次提示执行中生成一系列多个问题,如表1所示。此特征检验问题生成的顺序如何影响问题类型的准确性。它分析序列中的位置是否影响模型产生正确和相关问题的能力,从而深入了解模型在连续几代中的一致性和可靠性。
  3. 生成的问题中幻觉的发生率:为了理解材料,生成的问题应该完全基于提供的源文本。因此,如果问题或答案的内容包含源文本之外的信息,则被认为是不可取的,并可能被归类为幻觉。这一特征确定了这种幻觉的出现。通过识别和分类这些与预期内容的偏差,我们可以评估生成的问题的可靠性。幻觉的发生率越低,表明问题生成的可靠性和准确性越高。

    方法:采用以下过程来分析关键特征:准备教育文本:我们从OpenStax.com免费提供的在线教科书中收集数据。使用的教材有5本,分别是金融原理、哲学导论、解剖生理学、生物学和当代数学。从每本教科书中随机选择20个章节,分布在不同的章节中,总共有100个章节。在手动抓取过程中,只提取了主要文本,忽略了表格、图片、视频和通常放在特殊框中的附加文本以及结尾的摘要。平均每个阅读部分的字数为1513.08个,最短的有317个单词,最长的有6190个单词。除了提取文本之外,还提取了每个部分的学习目标。学习目标数据然后被用于问题生成中的一个实验。

    提示和生成:我们为LLM提供了指定四种不同问题类型的提示,前提、结果、比较和过程。然后,该模型根据这些提示生成问题,确保生成多种问题类型进行评估。这是模型的详细配置,这是确定的不同的问题,因为我们的目标是同时产生多个问题。我们跟踪了每个问题产生的顺序,以评估产生顺序对准确性的影响。人工评估:为了评估生成的问题类型的准确性,我们雇佣了两个人工注释者,一个具有研究生资格,另一个具有研究生资格。从100段输入文本中,我们抽取了50段进行人工评估。

    对于每个部分,选择生成的第一个和最后一个问题,从每个提示和每个LLM中产生总共100个问题进行人工评估。这总共产生了1000个问题(100个问题x 5个提示x 2个LLM)用于手工注释。在实际评估之前,五名候选评估员接受了一次培训,他们在培训中熟悉了标记流程,并在问题数据集上进行了练习。之后,我们手动审查他们的标签结果,并选择两个最终评估者。两位评估者手动检查并标记生成的问题,将每个问题分配到五个标签中的一个:前提、结果、比较、程序或其他。为注释者提供了详细的标注指南,包括每个问题类型的描述和示例(附录A.2)。这些指南旨在使评估过程标准化,减少主观偏见。评估者没有被告知每个生成问题的要求类型,以避免偏见,确保模型性能的评估尽可能客观。

    标记过程分两个阶段进行。在第一阶段,每个评价者独立地给每个问题分配标签。在第二阶段,他们讨论标签中的任何差异,以达成共识。第二阶段遵循曹和王(2021)概述的标记过程。源受限问题生成分析:该调查旨在确定使用文本作为源生成的问题是否包含源文本之外的内容。这个想法是识别反例,其中生成的问题包含源文本中不存在的信息。为了做到这一点,我们提供不包括比较或程序信息的源文本,然后要求LLM生成这些类型的问题。分析由此产生的问题,以查看LLMs是否可以在不添加外部信息的情况下产生指定的问题类型。实验包括以下几个步骤:1 .数据集创建:创建一个由10个定义性句子组成的小型数据集,由LLMs (GPT-4)生成,并人工检查其准确性。

    问题生成:要求LLM生成比较性和程序性问题,测试不同的变体,例如使用GPT-3.5与GPT-4,以及只生成问题或既生成问题又生成答案片段的提示。评估:检查每个生成的问题和答案,以确定问题类型是正确的(ct)还是不正确的(WT),以及答案片段是适当的(CA)还是不正确的(WA)。此外,如果无法从源文本创建所请求的问题类型,则将回答标记为“不兼容”(NComp)。通过识别和分类这些反例,我们可以评估生成问题的可靠性。

    性能分析:对于每种请求类型,我们计算正确生成的问题占总生成问题的比例。这为模型准确生成所需问题类型的能力提供了一个清晰的衡量标准。我们分析了问题的正确性与它们的生成顺序的关系。统计方法被用来确定任何趋势或模式,表明在一代序列中的位置如何影响正确性。

    RQ3:LLM生成的问题和人类生成的问题之间的质量比较提取的特征:这些是将被检查和分析以比较大型语言模型(LLM)生成的问题和人类生成的问题之间的质量的主要方面:1 .基于专家评估者的质量比较:这个特性关注主题专家提供的评估。这些专家对调查问卷中的主题有深入的了解,并有设计教育问题的经验。他们的专业知识确保了对教育目标和问题质量细微差别的全面理解。专家评估者使用的评估标准包括:清晰度:确保问题易于理解,最大限度地减少学生的困惑。这个标准,连同接下来的三个标准,改编自Horbach等人(2020)提出的标准。与学习目标一致:检查问题是否与教育目标相关,支持有针对性的学习成果。

    激发批判性思维:衡量问题促进更深层次认知参与的能力。总体有用性:衡量问题在教育背景下的实用价值。难度:确保问题对目标受众具有适当的挑战性,有助于有效评估。与批判性思维标准相比,该标准为非教育专家提供了一种更简单的衡量标准,并已在以前的研究中使用(高等人,2019;Kumar等人,2019)。与人类提问的相似性:评估人工生成的问题是否与人类生成的问题的质量和风格相匹配。这一标准受到图灵测试的启发,并已在先前的研究中使用(Nov等人,2023)。

    基于众包评估者的质量比较:该特征检查由来自Amazon Mechanical Turk的一组不同的众包评估者提供的评估。评估者满足以下标准:50个以上的任务获得批准,任务批准率在98%以上,位于美国作为母语为英语的人的代理,并在教育和培训方面有工作职能。众包评价者使用的评价标准包括同样的六个类别。通过比较来自人类专家和众包评估者的评估,我们获得了对问题质量的不同观点的见解。虽然专家带来了深度和特定主题的见解,但众包评估者提供了不同的视角,可以揭示更广泛的可用性和可访问性问题。与人类专家精心设计的问题相比,这种全面的评估方法对LLM生成的问题的质量提供了全面的评估。

    方法论。为了全面评估ChatGPT生成的问题与人类专家创建的问题相比的质量,我们采用了一种结构化的方法,包括准备比较问题集和由两组评估者进行A/B评估:准备比较问题集:本调查的目的是比较ChatGPT生成的问题与教科书中的问题的质量,教科书假定是由人类专家创建的。在openstax.org的五本教科书中,只有哲学教科书包含了与特定部分相关的问答题。这确保了问题清楚地来源于特定的材料,然后可以使用ChatGPT生成相应的问题。其他教科书在章节的末尾有复习题,但是这些复习题没有与具体的章节联系起来,因此很难找到准确的源材料。

表2用户生成问题的分类性能(宏观平均F1分数)
在这里插入图片描述
“投票”行表示通过使用投票方法汇总多个提示变化的结果获得的F1分数,如文本中所述。答:投票F1分数优于任何单个提示变量的分数。

    我们从哲学教科书中选择了五个阅读部分,以及它们的学习目标和每个部分的一些复习题。利用这五个选定的阅读部分及其学习目标,我们促使ChatGPT根据这些材料提出几个问题。这一过程产生了由ChatGPT生成的五组比较问题。两组问题(来自教科书和ChatGPT)将在随后的评估阶段提供给评估者。问题的A/B评估:在从人类专家和ChatGPT获得五个阅读部分的问题集后,我们创建了五个评估表。每个评估表中提供的信息包括学习目标、问题集A和问题集B。将人工生成的问题和ChatGPTgenerated问题分配给问题集A或问题集B是随机的。这意味着在一些评估表格中,集合A包含人工生成的问题,而在其他表格中,集合A包含ChatGPT生成的问题。评估者没有被告知每组问题的来源,也没有被告知比较涉及人类和ChatGPT的问题。采用这种方法是为了鼓励评估者提供尽可能公正和自然的评估,而不是试图辨别哪组问题来自人类专家。

    接下来,要求评估者选择他们对上述每个质量标准的偏好。他们有三个选项:“A > B”(例如,表明集合A在清晰度方面优于集合B),“B > A”,或者“无法决定”。评估表如图A.5所示。然后,我们向两组评估者提供了评估表。第一组被称为专家,由五名之前上过哲学课的博士生组成。他们也都有高等院校的教学经验,30岁以下的有两个,30-40岁的有两个,40岁以上的有一个。该小组包括两名女性评估员和三名男性评估员。第二组由具有数学、经济学和IT背景的教育工作者和学生组成。他们对这一主题的熟悉程度各不相同:有些人教授过问卷中的哲学科目,有些人研究过,有些人只是听说过,没有接受过正规教育。

    由于这项研究涉及人类,他们的隐私权得到严格遵守。在研究过程中,参与者通过隐藏个人信息得到保护。他们知道参与是自愿的,他们可以随时退出研究。本研究中不存在潜在的利益冲突。可以通过向通讯作者发送请求电子邮件来获取数据。性能分析:性能分析包括计算评估者对人类生成的或ChatGPT生成的问题的每个标准的偏好比例。为了确定每个标准的偏好差异是否有统计学意义,我们进行了一系列二项式测试。这些测试比较了偏好的比例,排除了“无法决定”的回答,以评估任何观察到的差异的统计意义。

    这些测试的零假设(𝐻𝑜)假设偏爱人工生成的问题的评估者的比例与偏爱ChatGPT生成的问题的比例相等,这意味着任何观察到的偏好差异都是随机的,对任何一种类型的问题都没有内在的偏好。二项式检验的结果将表明对每项标准的偏好差异是否具有统计显著性,从而对ChatGPT和人类专家提出的问题的相对质量进行严格和公正的评估。

    结果本部分介绍了我们关于大型语言模型在教育问题分类和生成中的有效性的研究结果。我们评估了两个模型的性能,分析了它们在生成特定类型问题时的准确性,并比较了LLM生成的问题和人类专家创建的问题的质量。这些结果提供了教育背景下LLM的能力和局限性的见解,解决了前面概述的研究问题。RQ1:LLMs在教育类型问题分类中的有效性表2显示了使用四种类型提示的问题分类性能,每种类型有六种变化。这里使用的性能指标是F1分数,它是测试准确性的度量。它同时考虑了测试的精确度和召回率来计算分数。每种提示技术的平均F1分数将与投票法进行比较。

    分类性能需要注意的是,将一个最强大的LLM与其他机器学习模型在相同任务上的性能进行比较,可以提供有价值的见解。表4显示了使用嵌入后的分类器以及微调预训练模型的结果。Faraby等人(2022)的Roberta模型的F1得分为0.81,明显高于ChatGPT的0.57分。虽然这两个模型是在同一个数据集上进行评估的,但需要注意的是,用于验证/测试的精确分割并不完全相同。然而,这种性能上的巨大差异凸显了针对特定任务进行微调的潜在优势。

在这里插入图片描述在这里插入图片描述

表3 提示2(投票)的每个问题类型的分类结果。
图二 使用Prompt-2比较人类标签和ChatGPT预测的混淆矩阵。

    另一方面,与DistillBERT + Random Forest相比,prompting ChatGPT具有更高的F1-得分,后者使用80%的训练数据来训练随机森林,而prompting ChatGPT不使用任何训练数据集。这证明了ChatGPT的潜力。此外,当比较ChatGPT和DistillBERT之间的嵌入质量时,使用ChatGPT嵌入显示了高达0.25点的显著性能提升。使用ChatGPT嵌入+随机森林也优于ChatGPT的简单提示。提示技术的影响在这项研究中,我们探索了几种提示技术,以评估它们在教育类型问题分类中的有效性,特别是零镜头、少镜头和思维链(CoT)方法。

    零触发提示:这种方法包括为语言模型提供没有具体例子的任务描述(Prompt1和Prompt-2)。它利用模型预先存在的知识,仅根据提示中给出的说明对问题进行分类。我们的发现表明,在所有报告的统计数据中,包括投票、平均值和标准差,零投提示优于更先进的提示技术。少数镜头提示:包括为模型提供少量例子和任务描述。这项技术旨在通过演示如何对示例进行分类来帮助模型更好地理解任务。然而,我们的结果表明,少镜头提示的表现略低于零镜头提示。这可能是因为教育问题的复杂性和多样性要求对背景有更广泛的理解,而有限的一组例子无法提供这种理解。

    此外,在提示中添加示例会增加每个提示变化的性能变化,这反映在Prompt-3和Prompt4中观察到的较高标准偏差(Std)上。虽然f检验显示这些差异与Prompt-2的标准偏差相比没有统计学意义,但趋势表明显著增加值得关注。此外,少数镜头学习的稳定性会受到示例选择、顺序和格式的变化的影响,导致不一致的性能(Lu等人,2022)。这些因素凸显了在复杂多样的教育内容中有效使用少镜头提示的挑战。思维链提示:通过鼓励逐步解决问题的过程来增强模型的推理能力。在我们的实验中,整合CoT和少投提示并没有比零投方法产生显著的改善。这可能是因为教育问题分类的任务不需要复杂的推理步骤,而是需要对上下文的强烈理解。因此,CoT对逻辑推理的关注在这种情况下并没有显著的帮助。

    在教育问题分类等任务中,内容通常复杂多样,少量提示中的有限示例集可能无法捕捉准确分类所需的完整上下文或可变性。因此,该模型可能过于狭隘地关注所提供的具体例子,可能会忽略有效分类所需的更广泛的背景。相比之下,依赖于模型对上下文更广泛理解的零镜头提示被证明更有效。此外,思维链提示所强调的逻辑推理步骤与这项任务不太相关,它更多地受益于对上下文的全面掌握,而不是复杂的逐步推理。

    投票方法的有效性分析了用于聚集来自多个提示的结果的投票方法的有效性。这种方法不仅始终优于提示变化的平均值,而且优于每个提示的最大单个分数。这些发现突出了投票方法增强分类准确性和可靠性的卓越能力。

表4与其他机器学习模型的比较。
在这里插入图片描述在这里插入图片描述

图3 LLMs生成所需类别问题的准确性比较。使用的指标是根据指定类型正确生成的问题的百分比。
表5自生问题分类评估
在这里插入图片描述在这里插入图片描述

表6 LLMs生成的问题的人工标记结果的详细信息。(Comp:Comparison,Antec:Antecedent,Conseq:result,Proced:Procedural,G:ChatGPT,L:LLaMA 2 13B)。

    对自生成问题进行分类的准确性对自生成问题进行分类的准确性进行了评估,以确保模型的稳健性,即跨不同数据集和领域进行良好概括的能力(Freiesleben & Grote,2023)。具体来说,我们旨在确保使用用户生成的问题创建和评估的提示在应用于LLM生成的问题时能够保持其性能。如表5所示,ChatGPT在自我生成的问题上表现更好,宏观平均F1分数为0.76,而用户生成的问题为0.64。用户生成问题的0.64是通过计算表3中四种问题类型的宏观平均值获得的。这表明该模型更适合它自己生成的结构和词汇。

    然而,在预期的生成类型和分类准确性之间存在不一致。理想情况下,分类性能应该与生成问题时使用的类型完全一致,因为相同的模型负责生成和分类。然而,两者之间存在不一致之处。预期世代类型的F1分数显著低于人类标签的F1分数,表明与人类标签的一致性好于预期世代类型。这种差异表明需要进一步完善生成过程。

    RQ2:LLM在生成特定类型问题4.2.1时的准确性。生成准确性性能在这一部分中,我们旨在评估LLM在基于所需类型生成问题时的正确性。如第3.2小节所述,LLMs产生的问题由两个注释者标记为五种预定义问题类型之一:“比较”、“前因/原因”、“结果”、“程序”和“其他”。度量标准此处使用的是根据指定类型正确生成的问题的百分比。在总共1,000个样本中,使用Cohen’s Kappa测量的评分者间一致值为0.61,这被认为表明基本一致(McHugh,2012)。

    图3示出了ChatGPT和LLaMA 2 13B在根据所请求的类型生成问题时的精度。尽管ChatGPT是最强大的模型之一,其任务不需要除给定输入文本之外的外部知识,但其性能仍然相对不令人满意,特别是对于过程类型,其精度仅为36%。“antecedent”类型也只有54%的精度。这说明开箱即用的ChatGPT对于这个问题是相对不精确的。

    与LLaMA 2 13B相比,ChatGPT在生成特定类型的问题方面明显优于前者。虽然问题生成的任务可能看起来很简单,因为它只涉及到将输入文本转换成问题,但是特定的类型请求使得这项任务对于较小的语言模型(LLM)来说具有挑战性。可以说,LLaMA 2 13B无法生成指定类型的问题。值得注意的是,给LLaMA 2 13B的输入文本的长度有所不同。由于内存限制,源文本仅限于1500个标记。这可能会有影响,但考虑到ChatGPT仅从一个句子中生成特定类型问题的高精度,如4.2.3小节所述,对源文本长度的限制不应被视为有效的理由。表6提供了ChatGPT和LLaMA对生成的问题进行人工标记的详细结果。

    如果我们更详细地查看表6,我们可以看到由LLaMA生成的大多数问题都被人类注释者标记为“其他”。在检查产生的样本问题时,发现其中许多是一般性问题,没有具体提到源文本。也有被归类为“例子”和“概念”的问题,它们被认为是低级的。以下是一些由LLaMA2生成的问题示例,这些问题被认为是先行问题:教材的主题和组织是什么?有哪些哲学家成功转型到其他职业的例子?吠陀文献的主题是什么?奥义书中用来描述超越感官感知领域的真实本质的深奥教义的术语是什么?需要进一步的研究来确定微调可以在多大程度上提高LLaMA 2 13B在这项任务中的能力。

    生成顺序对准确性的影响图4比较了第一个和最后一个生成的问题在四种问题类型上的准确性:比较、前因/原因、结果和程序。对于比较问题,准确率从第一个问题的76%显著下降到最后一个问题的45%。同样,前因/原因问题从63%下降到45%,结果问题从92%急剧下降到49%。有趣的是,程序性问题从28%提高到44%。这些结果表明模型性能的可变性取决于问题类型和序列位置。

    McNEMAR检验(McNemar,1947)评估配对数据差异的显著性,用于评估第一个和最后一个生成的问题之间的准确性差异。由于样本量较小,使用二项式精确方法,测试揭示了比较问题(p = 0.0004)和结果问题(p = 4.768e-07)在统计上的显著差异,表明准确性随问题位置而变化。先决问题和程序性问题没有显示出显著差异(分别为p = 0.0636和p = 0.1153),表明表现更加一致。

    生成的问题中幻觉的发生率表7示出了生成的问题和答案的评估结果。前两个实验表明,即使类型与源文本的内容不匹配,LLM也能够生成具有期望类型的问题(CT-WA:正确类型-错误答案)。条件是只要求LLM生成问题,而不引用答案。然而,在单独评估时,所有这些问题的目标答案都不在原文中。在…里换句话说,逻辑推理假设知识是从源文本之外获得的。

    接下来的四个实验要求LLMs提供从源文本中提取的答案片段,并选择“不兼容”作为响应。这个额外的要求有时会导致LLM产生与类型不匹配的问题,但是答案对是正确的,并且出现在源文本(WT-CA)中。有的还输出不兼容的答案,其实代表的是理想答案。有趣的是,引用答案片段的要求并不总是成功的,因为仍然有许多问题和答案被归类为CT-WA,在检查时,LLMs提供的答案片段实际上并不包含问题的答案。此外,也有CT-CA病例,虽然看起来与定义文本矛盾,但进一步检查后,包含在定义声明中不明确的程序或比较元素。

在这里插入图片描述

图4 不同题型下ChatGPT生成的第一个和最后一个问题的准确率比较。
表7 LLM使用不适当的输入文本产生的问题和答案的评估结果。(CT:正确类型,CA:正确答案,WT:错误类型,WA:错误答案,NComp:不兼容)。
在这里插入图片描述

    RQ3:LLM生成的问题和人工生成的问题之间的质量比较4.3.1。质量标准比较表8显示了专家和众包评估者在六个标准中对人工生成的问题和ChatGPT生成的问题的偏好。这些标准包括清晰度(C1)、与学习目标的一致性(C2)、批判性思维的激发(C3)、难度(C4)、总体有用性(C5)以及与人类提问的相似性(C6)。基于专家评估者的质量比较分析表明,在清晰度、与学习目标的一致性和总体有用性的标准方面,专家评估者通常更喜欢人工生成的问题而不是ChatGPT生成的问题。表示“往”此外,专家评估者倾向于认为ChatGPT生成的问题更难,更能激发批判性思维。然而,这些差异不足以被认为在这些标准中具有统计学意义。

    相比之下,与类似人类的提问相似的标准突出了对人类生成的问题的统计显著偏好,这由不包括0.5的置信区间和0.0352的p值所证明。这表明,专家评估者很大程度上更喜欢人类提出的问题,因为这些问题与类似人类的问题很相似。这一发现与之前的研究一致,如肖等人(2023),他们也强调了区分ChatGPT生成的问题和人类生成的问题的可辨别模式。

    基于众包评估者的质量比较另一方面,在所有标准中,众包评估者对人工生成的问题或ChatGPT生成的问题都没有表现出明显的偏好。他们倾向于选择一种类型的问题,也不像专家评估者那样强烈。这些结果可能意味着,从非专家评估者的角度来看,ChatGPT生成的问题被视为类似于人类生成的问题。这表明ChatGPT在某些领域的性能可能与人类生成的内容相当,特别是从非专家的角度来看。这突出了ChatGPT在生成教育问题方面的潜力,表明它可以生成可与人类生成的问题相媲美的问题。然而,这也可能是一个警告,即由于时间限制或缺乏专业知识等潜在因素,来自众包团队的评估可能不太可靠。这些考虑强调了仔细解释结果的必要性,特别是在比较专家和非专家小组的评价时。

讨论

表8 专家和众包评估者对人工提问和ChatGPT提问的偏好。
在这里插入图片描述

    在本节中,我们将深入研究从我们的结果中得出的关于大型语言模型(LLM)在教育问题生成和分类中的有效性的见解。LLM在教育类问题的分类上表现如何?ChatGPT展示了使用零触发学习的有效分类性能,仅依赖于问题类型定义。这种方法在训练数据有限或不可用的数据稀缺环境中特别有用。在这种情况下,ChatGPT的性能与其他机器学习方法相当,例如与随机森林相结合的distillBERT,这表明即使在最少或没有训练数据的情况下,零镜头学习模型也可以在分类教育问题方面实现高性能。然而,当有足够的训练数据时,涉及训练或微调的传统机器学习方法,如RoBERTa等微调模型,可以产生更好的结果。这表明,尽管零炮学习为数据稀缺的环境提供了有价值的解决方案,但传统的机器学习方法在准确性和可靠性方面仍然具有显著优势。值得注意的是,在对自己生成的问题进行分类时,ChatGPT中零射击学习的性能有所提高,这进一步强调了它在多样化教育环境中的潜在应用。

    LLM在生成特定类型的问题时有多准确?我们对ChatGPT生成特定类型问题的准确性的评估表明,它表现得相当好,尽管不是没有挑战。虽然ChatGPT能够生成与所请求的类型大体一致的问题,但是存在生成的问题与预期类型不完全匹配的情况,特别是对于序列中稍后生成的问题。一种增强AQS的潜在解决方案是利用问题分类器作为自动生成的候选问题的验证器或过滤器。通过问题分类解决最初的不对齐和准确性问题,可以显著提高AQG系统中LLMs的整体可靠性和有效性。尽管LLM的功能很有前途,但仍然存在幻觉事件的可能性,其中生成的问题包含了所提供的源文本之外的信息。在问题旨在刺激给定文本之外的探索性思维的场景中,这种幻觉可能是可以接受的,甚至是可取的。然而,在主要目标是增强对阅读材料的理解或测试理解的场景中,这些幻觉会带来巨大的挑战。它们可能会引出与所提供的材料无关的问题,从而破坏了LLM用于教育目的的可靠性。

    为了减轻这个问题,后处理技术是必要的。一种有效的方法是集成问答过程。增加评估者的数量并扩大被比较问题的样本量,可以对人工生成的问题和人工智能生成的问题之间的差异和相似性提供更全面的评估。此外,进一步的研究可以探索使人工智能生成的问题与人类专家制作的问题相媲美的具体属性,确定人工智能问题生成技术中需要改进和完善的领域。了解这些属性有助于改进模型,提高生成的教育内容的可靠性和有效性。

对教育理论、教学法和实践的意义

    我们的研究结果对教育实践有重要意义,为教育工作者和机构提供了实际的好处,特别是在自动问题生成(AQG)和问题分类领域。

  1. 增强教育内容:通过整合问题分类和AQG,我们的研究支持建构主义学习理论,强调积极参与和知识建构。教育工作者可以利用人工智能生成的问题来与学习目标保持一致,激发批判性思维,增强学习者的参与度。这种能力使教育者能够专注于促进更深层次的认知过程,而不仅仅是精心设计问题。
  2. 个性化和自适应学习:在我们的研究中使用零镜头和少镜头学习技术能够创建个性化的教育内容。教育工作者可以直接受益于根据个别学习者的具体需求和能力定制问题的能力,从而促进差异化教学并确保所有学生都受到适当的挑战。
  3. 教育实践中的效率:机构可以利用生成的问题来简化问题创建过程,减少教育工作者开发高质量评估所需的时间和精力。这种效率允许教育工作者分配更多的时间来指导教学活动和学生支持。
  4. 监控和缓解人工智能的局限性:我们在人工智能生成的问题中潜在幻觉的发现强调了谨慎实施和监控人工智能工具的必要性。教育工作者和机构必须确保生成的问题是相关的,并基于所提供的材料,以保持评估的完整性。通过意识到这些限制,教育从业者可以有效地将人工智能技术集成到课程和教学策略中,最大化其收益,同时最小化风险。

    总之,我们的研究为教育工作者和机构提供了实用的见解,使他们能够增强教育内容,个性化学习体验,并有效地集成人工智能技术以改善教育成果。

结论和局限性

    本研究展示了ChatGPT等大型语言模型在分类和生成教育类问题方面的潜力和局限性。我们的发现表明,虽然LLM可以有效地分类和生成问题,但仍有一些领域需要进一步完善以匹配人类水平的质量。这项研究的意义不仅在于技术上的成就,还在于它的教学意义。正如本文开头所强调的,生成和分类问题的能力是教育过程的基础。问题通过促进批判性思维、评估理解力和指导教学来推动学习。人工智能生成问题的引入提供了一个机会,通过提供一个可扩展和可适应的解决方案来满足多样化的教育需求,从而增强这些过程。

    LLM作为教育问题生成器和分类器已经显示出巨大的潜力。就清晰度、与学习目标的一致性、难度、激发批判性思维和总体有用性而言,适当提示的LLM可以产生与人类专家产生的问题相当的问题。这对于个性化学习和提高学生参与度等教育应用尤为有益。然而,仍有需要改进的地方。例如,在生成特定类型的问题时,准确性还不完善,并且存在准确性随着生成问题的顺序而降低的趋势,后面的问题准确性更低。

    此外,还有幻觉的问题,问题可能包括提供的源文本之外的信息。这是一个值得关注的问题,特别是在问题旨在测试特定材料知识的情况下,突出了谨慎使用LLM的必要性。尽管有这些挑战,仍然有机会利用LLM作为问题分类器来增强问题生成系统的输出。例如,LLM可以作为验证器来确保生成的问题与指定的类型相匹配。当很少或没有训练数据可用于训练分类器时,零触发提示特别合适。但是,如果有足够的训练数据,微调预训练模型等方法会更有效。在问题生成之后使用问题分类器有望使问题生成系统更有效地用于教育用途。

    未来的研究应该专注于解决幻觉的问题,例如集成一个QA系统,以验证生成的问题可以基于源文本进行回答,或者确保问题中的所有信息都出现在源文本中。这将使问题生成系统更加健壮,并且其输出可以更直接地使用,而不用担心错误信息。最后,我们承认本研究中的几个局限性,包括注释者数量相对较少,注释者解释的潜在偏差,一些问题固有的模糊性,以及来自在线问答论坛的数据集的有限代表性。此外,比较的LLM模型种类有限,对一些观察到的异常的分析深度也值得注意。为了确保更可靠的结果,未来的研究应该增加注释者的数量,扩展分析问题的种类,并探索更广泛的LLM,以提供对模型的能力和局限性的更全面的理解。

    鉴于LLM的最新进展,如GPT-4和GPT-4,与ChatGPT 3.5相比,它们在许多教育任务中表现优异,未来的研究调查这些新模型至关重要。评估它们在克服当前限制方面的有效性,特别是在减少幻觉和提高问题准确性方面,可以提供重要的见解。总之,这项研究有助于正在进行的关于人工智能在教育中的作用的讨论,它提供了证据,表明人工智能产生的问题虽然还不完善,但对加强教学实践具有重要的前景。通过继续完善这些技术,我们可以更进一步实现它们在创造引人入胜、有效和个性化的学习体验方面的全部潜力。

附录

    附录第A.1节提示策略在我们对语言模型(LLM)进行实验的过程中,我们坚持使用OpenAI (OpenAI,2023)推荐的提示策略,特别关注于精心制作清晰的说明并结合参考文本。这涉及到几个关键的方法。

清晰的说明:首先,我们包括了必要的细节,比如问题类型的定义。为了提高清晰度并确保精确的输入分界,我们使用了单引号和三引号这样的分隔符。

此外,我们通过分块编写提示来指定顺序步骤,包括:理解问题的定义,理解阅读材料,制定相关的问题,并以所需的格式输出回答。

提供文本参考:此外,我们将参考文本集成到提示中,并用三重引号来描述。下面是我们的一个提示中提示技术的实现。

*开始提示 *比较问题:要求在多个事件或概念之间进行比较。

说明:根据下面的阅读部分,创造一些“比较问题”,并使用以下格式。

Q1: Q2: Qn:这里是阅读部分:“”最常见的商业组织类型…

" " " *结束提示 *少量多次学习:为了进一步增强我们的提示方法的效力,我们在问题分类提示中提供了多个示例,这些示例用作上下文少量多次学习的训练数据,并作为格式化输出的一种方式。下面是例子。

BEGIN PROMPT将以下问题分类为以下类别之一:a .验证。定义:要求一个事件或概念的真实性。

例子:-迈克尔杰克逊是一个非裔美国人吗?奔驰经销商必须打开锁着的收音机吗?…

问:一旦你哥哥结婚了,你有可能成为他最好的朋友吗?类别:验证问题:两个细菌交换遗传信息时,这个过程叫什么?类别:概念…

问题:{question}类别:*结束提示 *思维链(CoT):随后,我们将少射学习与CoT相结合,使LLM能够按部就班地进行思考。下面是在我们的提示中如何实现CoT的一个例子。

*开始提示 *…

按照以下步骤,将一个疑问句准确地归入上述类别之一。仔细阅读问题,理解其意图。

2.将问题的意图与提供的定义和例子进行比较。

3.根据比较结果确定最合适的类别。

4.指定类别,但不提供解释。

*结束提示 *通过遵循这些策略和技巧,我们确保了我们的提示清晰、详细且有条理,从而使LLM做出更相关、更准确的回应。

A.2 .问题类型标注指南见表A.9。

A.3. A/B评估表图A.5是给予两组人类评估者的评估表的示例。

A.4 .缩略语列表

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值