Generating Better Items for Cognitive Assessments Using Large Language Models

题目

使用大型语言模型为认知评估生成更好的项目

在这里插入图片描述

论文地址:https://aclanthology.org/2023.bea-1.34/
项目地址:https://github.com/Advancing-Machine-Human-ReasoningLab/gpt3-item-generation/tree/main

摘要

    编写高质量的测试问题(项目)对于构建教育措施至关重要,但传统上也是一个耗时的过程。缓解这一问题的一个有希望的途径是自动生成项目,即使用人工智能 (AI) 的方法在最少的人为干预下生成新项目。研究人员已经探索使用大型语言模型 (LLM) 来生成具有与人工编写项目相同的心理测量属性的新项目。但是,即使现有项目的有效性证据较差,LLM 能否生成具有改进的心理测量属性的项目?我们使用来自自然语言推理 (NLI) 数据集的项目对此进行了调查。我们开发了一种新颖的提示策略,该策略基于选择具有最佳和最差属性的项目以用于提示,并使用 GPT-3 生成新的 NLI 项目。我们发现 GPT-3 项目在许多情况下表现出改进的心理测量属性,同时还具有良好的内容、收敛和判别有效性证据。总的来说,我们的结果证明了使用 LLM 简化项目开发过程的潜力,并表明谨慎使用提示可以迭代改进项目质量。

    人工智能对教育和心理测量的影响越来越深远。基于人工智能和机器学习的技术,包括教育数据挖掘、智能辅导系统、深度项目反应理论和深度知识追踪等正在改变教育和心理测量,而且这种趋势似乎可能会持续下去。

    大型语言模型 (LLM) 的一个有前途的教育应用是自动生成测试项目 (AIG)。编写高质量的测试项目对于建立有效的教育评估至关重要,但传统上也是一个耗时的过程,因为项目必须由专家开发并经过多轮审查。大量研究者对使用 AIG 创建高质量试题感兴趣,这种试题只需极少干预,可以加快测试开发过程。先前的研究表明,LLM 可以生成至少具有表面效度(即,根据试题内容,它们看起来有效)的试题,适用于非认知和认知结构。对从此类模型生成的试题进行仔细的心理测量分析还表明,它们与人类书写的试题一样有效和可靠。

    尽管前景光明,但这项研究主要集中在为已经充分研究的结构生成试题,使用已知具有强大有效性证据的试题。假设一位教育工作者希望为新结构开发测试,而现有试题可能只经过了预测试。或者假设教育者希望在一个成熟的领域使用一种新型的项目(例如,使用新项目格式的代数推理测试)。无论哪种情况,这些项目的有效性证据都可能有限,并且需要花费大量时间修改项目以改善其心理测量属性,然后才能使用它们。

    在这项工作中,我们问:即使在现有项目只有有限有效性证据的情况下,LLM 是否可用于生成有效且可靠的项目?如果是这样,基于 LLM 的 AIG 可用于迭代改进项目的心理测量属性,探索底层构造空间,并阐明什么是好的项目。我们使用 GPT-3对此进行探索,并专注于生成测试自然语言推理 (NLI) 的项目。NLI 是一种重要的认知在 NLP 研究中构建的模型,据我们所知,该模型在人类参与者中仅进行了有限的心理测量分析。

    我们开发了一种新颖的提示策略,该策略使用项目的心理测量属性(使用先前的人类反应计算)来选择最具信息量的示例发送给模型,以最大限度地提高生成示例的质量。我们的主要贡献如下:

  1. 我们开发了一种新颖的提示策略,通过根据项目所具有的心理测量属性选择要作为上下文包含的项目来生成项目,主要关注项目区分。
  2. 使用 GPT-3,我们使用 GLUE 广泛覆盖诊断测试我们的方法,这是 NLP 研究中流行的认知任务。我们对生成的项目的心理测量属性进行了广泛的分析,发现在大多数情况下,来自 GPT-3 的项目比人类编写的项目显示出更强的有效性和可靠性证据。

相关工作

    自动化项目生成 几十年来,心理测量学家一直在探索如何实现项目生成的自动化。 早期的尝试集中在开发项目模型上,这些系统可以交换项目中的某些关键词,同时保持项目中其他部分不变。虽然项目模型在理论上是合理的,而且很有可能产生心理测量有效的项目,但开发它们需要大量的手动工作,因为项目词干和其他组件仍然必须手动编写。此外,项目模型在可生成内容的多样性方面受到限制。这些缺点促使最近的研究使用 LLM 作为项目生成器。von Davier是最早探索这一点的人之一,他使用循环神经网络生成人格评估的项目。 Transformer 的出现导致了 LLM 的创建,它可以生成更加连贯和语义准确的文本,从而进一步引起了人们对基于 LLM 的 AIG 的兴趣。Götz 等人使用 GPT-2生成了大量个性项目,并表明其中至少有一些项目通过了表面效度检查。

    Maertens 等人使用 LLM 生成的项目开发了一种错误信息敏感性测试。Hernandez 和 Nie开发了一个自动生成和验证测试项目的系统,使用自回归 LLM 进行生成,使用自动编码 LLM 进行验证。 Lee 等人广泛评估了 GPT-3 生成的人格项目的心理测量特性,包括内部结构分析、差异项目功能和可靠性。他们得出结论,机器生成的项目的有效性证据与人工编写的项目一样强,甚至更强。虽然许多工作都集中在非认知评估上,但其他人已经探索了基于 LLM 的 AIG 用于教育评估。值得注意的是,Chan 等人使用 BERTLLM 来生成语法阅读练习。Zou 等人和 Rathod 等人使用 transformer 生成判断题和阅读理解题。Attali 等人使用基于 transformer 的 LLM 为 Duolingo 英语测试生成题目。 Zu 等人结合使用微调和基于提示的学习来训练 GPT-2 以生成填空词汇项目的干扰项。

    这些作品中的一个共同主题是关注经过充分研究的评估,以及使用已经在提示中经过心理测量验证的项目。因此,他们的目标是生成保持现有心理测量属性的项目,这与我们生成具有改进属性的项目的目标不同。NLP 中的合成数据生成在收集高质量数据方面,NLP 研究人员的担忧与测量界面临的担忧重叠。包括 NLI和问答 (QA)在内的流行 NLP 任务的训练示例历来都是使用众包注释创建的,这既昂贵又耗时。近年来 LLM 的飞速发展也意味着,随着新模型的开发,许多曾经具有挑战性的数据集很快就会过时。人们对使用 LLM 生成合成训练数据产生了浓厚的研究兴趣,而不需要进行注释研究。先前的研究探索了基于 LLM 的 QA 数据增强、释义识别和 NLI。通常,这条研究路线依赖于信息论项目质量指标,例如数据集图来评估新生成的项目。与我们的工作最相关的是 Liu 等人的研究,他们开发了一个使用 GPT-3 自动生成 NLI 项目的系统。然而,他们的方法没有采用教育测量中常用的评估有效性和可靠性的方法,而是依赖于信息论项目质量度量。我们的目标是使用项目的心理测量属性作为优化目标,在人类和 LLM 群体中生成具有改进的有效性和可靠性的项目。

测试项目的生成

    通用语言理解评估 (GLUE)是一个旨在衡量 LLM 中广泛语言结构的基准。 GLUE 中包含一个诊断集 AX, 1,旨在作为诊断 LLM 故障的挑战集。AX 上的题目被定义为 NLI:给定前提 § 和假设 (h),模型必须确定 p 是否蕴涵、矛盾或相对于 h 是中立的。题目由 NLP 专家撰写,灵感来自 FraCas 套件 中的类别,并基于来自各种人工和自然环境的句子。 Wang 等人 (2018) 报告称,在标记随机样本的 AX 项目时,评分者间信度很高,AX 已成功用于评估许多新的 LLM,这表明该诊断具有良好的预测效度。

    此外,Laverghetta Jr. 等人之前对 AX 中的部分项目进行了人体研究,目标是测试命题结构 (PS)、量词 (Q)、形态否定 (MN) 和词汇蕴涵 (LE)。表 1 显示了来自这些类别的示例 AX 项目。他们发现 LLM 强烈预测了这些类别中人类反应的项目难度和项目间相关性,表明 AX 作为两个群体的推理测试具有良好的收敛效度。总的来说,这些结果表明 AX 项目具有表面效度(即表面效度);这些项目在初步的人类研究中似乎运行良好,并已成功用于发现 LLM 推理中的错误,但尚未对其心理测量属性进行广泛的分析。这使得 AX 成为我们实验的良好评估,因为我们想要的项目没有经过广泛的心理测量开发,因此可能没有很强的有效性作为所讨论构造的度量。

    我们的目标是使用 LLM 为 AX 生成新项目,从而改善项目和整个测试的心理测量属性。正式地,给定一个 LLM M 和一个包含一个或多个具有心理测量属性 θ 的项目的提示 p,我们寻求从 M 中抽取新的项目 i,从而导致 θ 的改进:2 i ∼ M§ | θi > θp (1) 其中假设 i 和 p 测试相同的构造(例如,NLI)。先前的工作已经证明,当 LLM 被给予现有项目作为提示时,他们可以生成与这些项目所测量的构造相匹配的新项目。我们在此方法的基础上设计提示,指示 LLM 为具有所需心理测量属性的特定构造生成新项目。图 1 显示了我们开发的一个提示。指示模型仅生成与目标属性匹配的项目,并且我们一次只使用一个类别的项目。我们在实验中使用项目区分度作为目标属性。区分度是指项目将高能力考生与低能力考生区分开来的能力,并使用项目与总分相关性(单个项目的回答与所有项目的总分之间的相关性)计算。

在这里插入图片描述
表 1:每个 AX 类别的 NLI 项目示例。MN 和 Q 项目已被删减和改写以适合一行,但仍属于各自的类别

    高度区分将预测总分,因此应最大化。我们对区分度的使用基于对 Laverghetta Jr. 等人的数据的初步分析,该分析表明每个类别中至少有一个项目具有负面区分度。一般来说,具有负面区分度的项目被认为是有问题的,可能是错误的,不应包括在认知评估中 (Bandalos, 2018),这使得提高 AX 项目的区分度成为一个自然的优化目标。我们使用现有的人工书写项目作为提示中所需属性的示例,选择区分度最高的前 k 个项目作为“高区分度”,选择区分度最低的后 k 个项目作为“低区分度”。3 我们在实验中设置 k = 3,因为我们发现较大的值会导致区分度的差异变得可以忽略不计。

    通过提供好项目和坏项目的示例,我们希望教会模型高质量项目的一般特征。我们使用 GPT-3作为我们的项目生成器,因为它在许多 NLP 任务中表现出色,具有易于使用且价格低廉的 API,并且先前的工作在使用 GPT-3 生成非认知和 NLI项目方面取得了成功。我们将所有实验的温度设置为 1,以鼓励生成的项目的多样性,并使用最大 token 限制 300。我们探索改变其他关键超参数的影响:

  • Top P:此参数基于核采样,并确定采样时要考虑的对数概率分数,值越大,允许采样更多不可能的完成。基于 LLM 的 AIG 中的先前工作对此设置有所不同;一些人使用了高于 0.5 的值,而另一些人使用了 0.5 或以下的值。因此,我们选择同时尝试 0.5 和 1,因为我们理论设置更高的值可能会导致更多样化的生成,但也会增加项目缺乏结构有效性的风险。
  • 提示类型:我们使用遵循图 1 所示结构的“简单”提示。但是,由于 AX 类别非常具体,我们推断提供有关类别的额外背景信息可能会提高生成准确性。因此,我们还尝试使用“详细”提示,其中包括从 AX 附录中获取的有关每个类别的其他信息。


图 1:使用“简单”提示格式的提示结构。已添加额外的换行符以使文本保持在边距内。

    我们将所有其他超参数保留为默认值。我们使用 text-davinci-003 端点,6 并于 2022 年 12 月查询 API。我们生成 400 个项目,每个类别 100 个,每个超参数组合 25 个(提示类型和 top p)。我们删除任何重复的项目、模型未生成有效标签的项目以及与 AX 中的项目逐字匹配的项目。按照规模开发的最佳实践,我们对生成的项目进行内容审查。四位博士。要求在 NLP、NLI 或心理测量 AI 领域发表过论文的学生对 GPT-3 项目的质量进行评分。我们要求注释者对项目与衡量类别的相关性、项目的清晰度(是否有拼写或语法错误)、项目是否包含潜在有害内容以及它们的注释中的确定性。在开始研究之前,我们向注释者提供了详细的说明,要求他们提前查看,包括有关 AX 类别的信息、如何回答每个评级以及示例评级。我们指示注释者在标签不正确或项目与目标类别不匹配时将项目评为“完全不相关”。我们遵循 NLI 研究中的标准做法来确定正确的标签应该是什么,所有注释者都被告知这一点。

    特别是,注释者总是假设 p 和 h 指的是同一个事件或情况。为了确定类别成员资格,我们遵循 Wang 等人提供的每个 AX 类别的定义,并开发了一本简单的代码书来确定这一点。大多数注释是在四小时的注释会话中同步完成的。根据内容分析的推荐做法,每个项目都由每个注释者评分。鼓励注释者互相讨论项目并就应使用哪些评级达成一致。有关内容审查的更多详细信息,包括注释界面的示例,可在附录 A 中找到。

    为了使生成的项目通过内容审查,我们确定所有注释者都必须将该项目评为非常清晰、相关或非常相关,该项目不包含有害内容,并且注释者对他们的预测有把握或非常有把握。在 400 个项目中,有 92 个符合所有类别的这些标准,每个类别至少有 15 个通过。我们从每个类别中随机抽取 15 个,平衡标签,以获得 GPT-3 生成的项目。总共抽样了 60 个项目。

实验

    我们在第 3 节中确定 GPT-3 可以生成至少具有表面效度证据的 AX 项目。但是,考虑到我们设计提示来诱导这一点,这些项目真的是更有效和更可靠的基本语言推理衡量标准吗?为了研究这一点,我们在 Amazon Mechanical Turk7 上招募了人类参与者来完成 GPT-3 项目和原始的人类书写项目。102 名居住在美国的参与者,他们至少完成了 50 项 HIT(人类智能任务),接受率至少为 90%,被招募参与研究。我们使用 Laverghetta的注意力检查项目和质量控制协议来验证我们的工人是否真诚参与。工人首先完成入职 HIT,其中他们获得了五个注意力检查项目,其格式与 AX 项目相同,但根据设计,它们更容易解决。这是为了让工人熟悉任务并确保他们可能会提供良好的响应数据。通过入职培训的工人随后完成了另外两个 HIT,每个 HIT 包含一半的 GPT-3 项目,然后完成了两个最终 HIT,每个 HIT 包含一半的人工编写项目,并且每个 HIT 包含六个注意力检查,均匀分布在整个调查过程中。

    每次调查都会对每位工人的提交内容进行评估,我们遵循 Laverghetta 制定的协议来确定是否应该接受或拒绝工作。简而言之,工人需要在调查中获得至少 60% 的准确率,或在注意力检查中获得至少 66% 的准确率,并为每个回答提供理由以表明他们确实在关注。有关人类研究的协议和付款结构的更多详细信息包含在附录 B 中。我们最终收集了 18 名参与者的数据,并根据此样本进行以下分析。

    总的来说,我们的目标是将 GPT-3 书面项目与人类书面项目的心理测量特性进行比较,特别关注项目难度、项目区分度、可靠性(使用内部一致性评估)以及收敛和判别效度。这些都是在建立新评估的有效性和可靠性时需要分析的重要属性,当使用称为经典测试理论 (CTT) 的测量框架进行评估时,可以使用小样本量进行计算。 CTT 本质上认为,个人在认知任务上的真实熟练程度(他们的真实分数)可以分解为他们获得的观察分数(实际分数)和代表测量误差的误差项。请注意,此误差被认为是随机的,而不是系统的。

    因此,CTT 用于评估有效性和可靠性的方法基于对观察分数的分析以及观察分数之间的相关性,其中观察分数只是任务的准确性:观察分数 = 正确答案 所有答案。尽管已经开发出更复杂的测量理论,但它们通常依赖于潜在变量建模,并且需要更大的样本量。此外,在实践中,在 CTT 下建立有效性和可靠性通常是验证新评估的第一步,我们认为这证明了我们在本研究中关注 CTT 的合理性。

在这里插入图片描述在这里插入图片描述

图 2:每个类别的平均项目难度,以总分衡量。数值越低,总分越低,因此项目难度越大。
图 4:每个类别中项目响应的系数 α,比较人工书写和 GPT-3 书写的项目。误差线是使用 Feldt 方法 (Feldt et al, 1987) 计算的 95% 置信区间。值越高,表示可靠性越高,有效性证据越强。

    我们首先比较人类和 GPT-3 书面试题的平均试题难度(图 2)和平均试题辨别率(图 3)。难度基于参与者观察到的分数,相当于准确率。经典心理测量学认为,试题难度应该介于概率和准确率的中间点。满分,在我们的例子中大约是 70%。我们再次使用项目与总体相关性来衡量辨别力,并回想一下,项目辨别力应该是正的,值越高表示辨别力越好。我们发现 GPT3 项目始终比人工编写的项目更接近最佳难度级别。GPT-3 项目也比人工编写的项目更具辨别力,尽管 LE 是一个显着的例外,GPT-3 项目的辨别力明显较低。

    由于 LE 测试所有形式的词汇蕴涵,并且是一个比其他结构更广泛的范围的构造,因此预计辨别力会更低,尽管这并不能完全解释相当大的下降。内部一致性,可靠性认知评估的项目应表现出很强的可靠性,这意味着具有相似能力水平的参与者也应该以类似的方式做出反应。广泛使用的可靠性度量是系数 α ,定义为: α = k k − 1 (1 − 滑k i=1 σ 2 yi σ 2 x ) (3) 其中,k 是项目总数,σ 2 x 是所有项目总分的方差,σ 2 yi 是项目 i 总分的方差。α 的范围从 −∞ 到 1,当受试者内变异性大于受试者间变异性时,α 为负数。因此,可靠性应该最大化。我们为 GPT-3 和人类计算了 α使用 Pingouin Python 库对每个类别分别进行测试。图 4 显示了具有 95% 置信区间的可靠性。在所有类别中,GPT3 生成的项目与人类编写的项目相比具有相似或更好的可靠性。MN 是一个特殊情况,因为此类别的 α 下降到负值范围,表明有效性证据较差,尽管即使在这种情况下,GPT-3 项目总体上也显示出更好的可靠性。因此,GPT-3 项目似乎在人类参与者中引起了更一致的反应。

在这里插入图片描述在这里插入图片描述
图 5:MTMM 矩阵的结果,使用 Pearson 相关性与总分计算得出。颜色越蓝,相关性越强。
图 3:每个类别的平均项目与总分相关系数。值越高,表示项目对参与者总分的预测性越高,因此辨别力越强。

    收敛效度和判别效度证据 多特质多方法 (MTMM) 矩阵是评估测量结构效度的经典技术,经常用于评估新工具。MTMM 矩阵显示了使用不同的测量技术 (方法) 测量不同认知结构 (特质) 时它们的相关性。在这个框架中,效度是根据不同特质/方法组合之间的相关性强度来定义的。一般来说,根据收敛效度和判别效度的定义,在测量相同特质 (单一特质异质方法) 时,不同的方法应该具有很强的相关性,而使用相同方法测量的不同特质应该具有弱相关性 (异质特质单一方法) 。

    我们使用这种方法来评估 GPT-3 项目的收敛效度和判别效度。我们将 AX 类别视为特征,将用于生成项目的方法(人工编写或由 GPT-3 生成)视为方法,并使用参与者的总分计算特征和方法的所有可能组合之间的 Pearson 相关性。此外,我们使用 Bonferroni 校正 p 值 0.002 来检查重要性。

结果

    如图 5 所示。发现 PS(ρ = 0.75,p << 0.001)存在显著的单一特质异方法相关性,但 Q(ρ = 0.72,p < 0.01)、MN(ρ = 0.06,p < 0.5)或 LE(ρ = 0.20,p < 0.5)不存在显著相关性。除 PS 和 Q 之间外,所有异质特质-单一方法相关性均不显著(p > 0.1)。对于人工书写的项目,发现相关性显著(ρ = 0.81,p << 0.001),但对于 GPT-3 书写的项目则不显著(ρ = 0.16,p < 0.5)。总的来说,鉴于缺乏显著的异质特质-单一方法相关性,这些结果为 GPT-3 项目的判别效度提供了强有力的证据。对于 PS,聚合效度的证据很强,对于 Q,9 的证据程度较小,但对于 MN 或 LE 则不然。因此,GPT-3 书面项目的有效性证据与人类书写的项目一样强,甚至更强。

    局部项目依赖性分析回想一下,CTT 假设测量误差纯粹是由于随机机会造成的,而系统误差不易解释。违反这一点的一种方式是来自称为局部项目依赖 (LID) 的现象。LID 发生在项目对之间,通常发生在解决项目所需的信息相互关联时。例如,LID 通常是阅读理解评估的一个问题,因为引用相同文本的项目可能会无意中引入对共同刺激的局部依赖。重要的是,LID 表示项目上的错误以不同于构造上的熟练程度的方式相互关联,因此意味着测量中的系统误差。

    正如 Attali 等人指出的那样,在 AIG 的背景下,LID 是一个更大的问题,因为 GPT-3 可能以程序化和有些冗余的方式生成项目。也许作为 AX 构建方式的产物,我们还发现许多人类书写的项目具有高度相似的语言结构,我们推断这可能导致 GPT-3 根据共同刺激生成项目,这可能会无意中引入 LID。因此,我们遵循 Attali 等人的协议,对于每个类别以及人写和 GPT-3 写的项目,我们计算每个类别中所有项目对之间的偏相关,控制总分。根据之前的研究,我们使用 0.3 或更高的相关阈值来表示 LID,并绘制每个类别中偏相关的密度分布。结果如图 6 所示。我们发现,即使是人写的项目,LID 似乎也存在于除 MN 之外的所有类别中,尽管即使在这种情况下,我们也观察到了强烈的负相关。然而,GPT-3 项目似乎并没有使 LID 明显恶化。项目类型之间的分布通常相似,在某些情况下,GPT-3 分布似乎更接近于零,这表明具有 LID 的对较少。因此,我们推测 LID 对 GPT-3 书面项目的担忧并不比对人类书写项目的担忧更大。

    扩展到 GPT-4 OpenAI 最新的 LLM,GPT-4,10 是在我们对 GPT-3 项目的测试完成后发布的。鉴于 GPT-4 在无数任务中报告的性能大幅提升,我们选择对 GPT-4 生成的项目质量进行初步分析,这次只运行内容审查。11 我们使用相同的内容专家并遵循相同的审查协议。我们选择不为 MN 生成项目,因为此类别项目的有效性证据非常差。超参数和提示仍然是相同,我们在 API 中使用 gpt-4 端点。

    为了使结果在各个模型之间尽可能具有可比性,我们选择不使用 GPT-4 提供的系统上下文或其他聊天功能,而是一次性管理提示。我们每个类别生成 18 个项目,在测试的三个类别中总共生成 54 个。在运行重复数据删除并删除带有无效标签的项目后,我们将剩余的项目交给我们的内容专家管理。

在这里插入图片描述
图 6:每个类别计算的偏皮尔逊相关性的密度图(使用核密度估计计算),控制参与者每个类别的总分。排除一个或两个项目方差为 0 的项目对。偏相关大于 0.3 表示 LID,峰值接近 0 的分布具有 LID 的项目对较少。

    我们特别感兴趣的是,我们的专家是否会报告 GPT-4 项目与 GPT-3 相比更适合衡量目标构造。我们在图 7 中绘制了 PS 的注释器分布图,并在附录 C 中展示了 LE 和 Q 的结果。令人惊讶的是,我们发现 GPT-4 的结果好坏参半。虽然 GPT-4 为 Q 生成了更大比例的标记为“相关”或“非常相关”的项目,但它为 LE 和 PS 生成的此类项目较少。由于 GPT-4 的设计功能更像聊天机器人而不是 GPT-3,因此我们的提示可能需要重新构建以更好地利用模型的功能,但需要更多的实验来探索这一点。

讨论和结论

    总的来说,我们的结果表明,即使对于经过有限心理测量分析的结构,LLM 也可以生成具有卓越有效性证据的项目。发现 GPT-3 项目具有更好的区分度和可靠性,同时保持了强大的收敛性、判别性和内容效度。虽然已证实 LID 存在于两种项目类型中,但在 GPT-3 项目中似乎并不更差,甚至可能略有改善。这些积极的结果虽然在 PS 和 Q 中清晰存在,但对于 MN 和 LE 则不太明显,并且整体有效性证据在测试范围最窄的结构的类别中似乎最强。尽管结果很有希望,但我们的结果也存在一些局限性,应该在未来的工作中加以解决。我们收集的样本量很小,因此很难评估我们的研究结果的普遍性。

    这也使我们无法使用因子分析或项目反应理论的方法对内部结构或差异项目功能 (DIF) 进行任何分析,因为这些模型需要大量样本 (Min and Aryadoust, 2021)。由于 GPT-3 生成的项目不应包含 DIF,并且具有与人类编写的项目相似的因子结构,因此这些是未来工作中需要探索的重要分析。我们也没有检查生成的项目的多样性,换句话说,模型对构造空间的探索程度如何。

在这里插入图片描述
图 7:GPT-3 和 GPT-4 项目的注释者相关性分数分布(检查项目是否具有正确的标签并与类别匹配),PS 类别的项目。标记为“完全不相关”的项目百分比越低,表明使用该模型生成的项目的内容有效性证据越强。

    心理测量学中一个众所周知的问题是,有太多措辞相似的项目会夸大测量的可靠性并降低测量的有效性,我们的结果可能容易受到此影响。一个相关的问题是确保生成的项目中标签的分布保持平衡,虽然我们采取了措施来解决这个问题,但我们确实发现 GPT-3 项目的分布有些不平衡。例如,中性项目的数量远远少于蕴涵或矛盾。改进提示设计以同时考虑多样性和其他心理测量特性是未来工作富有成效的方向。我们对 GPT-4 的实验虽然令人失望,但也相当有限,应该加以扩展。我们故意让两个模型之间的提示设计尽可能相似,以避免可能的混淆。然而,有效利用系统查询并改变提示的结构以适应对话风格可能会带来更好的结果。最后,虽然我们认为 NLI 是用于初步实验的一项好任务,但我们也承认它与教育中感兴趣的任务(例如问答)有很大不同,未来的工作应该探索我们在教育应用更强的任务上的方法。

    LLM 有可能大大减轻量表开发的负担,并改变教育和心理测量。我们的研究结果为不断发展的基于 LLM 的自动项目生成领域做出了贡献,并展示了这些方法在以前不可能的规模上生成有效和可靠项目的潜力。进一步的研究,将我们的方法与更先进的提示策略或零样本参数估计相结合,可能会导致一个以完全自主的方式生成高质量项目的系统,这将改变编写和验证测试项目的实践。

局限性

    我们强调我们的研究是探索性的,我们生成的项目不应用于对人类或 LLM 的认知技能进行批判性评估。如第 5 节所述,我们的样本量较小,很难就我们的研究结果的普遍性得出广泛的结论,而关于注释研究的实际考虑限制了我们彻底探索提示空间的能力。虽然我们选择 GPT-3 是因为它易于使用,而且大多数心理测量学家可能都知道它,但我们也承认 OpenAI 几乎没有公布关于如何训练或更新该模型的细节,这妨碍了我们结果的可重复性。我们还承认,自这项工作完成以来,OpenAI 发布了更新的 LLM,包括 ChatGPT 和 GPT-4,而我们使用 GPT-4 进行的初步实验并不能让我们充分了解该模型的功能。然而,鉴于我们仍然能够使用 GPT-3 项目进行详细实验,并且这些项目在多次试验中被证明具有更好的有效性证据,我们不认为更新的 LLM 的存在会否定我们的结果。最后,众所周知,LLM 可能会产生有偏见、有毒或其他形式的有害文本内容。虽然我们在内容审查中采取了措施来解决这个问题,但未来的工作必须牢记这种可能性,并仔细分析生成的项目是否存在潜在的有害内容。一个相关的问题是 GPT-3 项目可能会传播针对历史上被边缘化的群体的劣势。例如,这些项目可能依赖于文化背景或其他信息,从而给某些人群带来不公平的优势。鉴于我们缺乏足够的样本量并且没有从参与者那里收集个人身份信息,我们无法运行 DIF 分析来检查这一点,也不能明确地说 DIF 不存在。

  • 10
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值