Can GPT4 Answer Educational Tests? Empirical Analysis of Answer Quality Based on Question Complexity

题目

GPT4 能解答教育类考试吗?基于问题复杂度和难度的答案质量实证分析

在这里插入图片描述

论文地址:https://link.springer.com/chapter/10.1007/978-3-031-64302-6_14

摘要

    虽然大型语言模型 (LLM) 的最新进展表明它们有潜力应对这些挑战,但关于 LLM 如何很好地回答不同难度和复杂度的开放式问题的研究有限。本文通过比较 GPT4 与人类的表现来解决这一差距,考虑问题的难度(通过项目反应理论 - IRT 评估)和复杂性(基于布鲁姆分类法级别分类),使用与高中主题相关的 7,380 个开放式问题的数据集。总体而言,结果表明 GPT4 超越了非母语人士,并表现出与母语人士相当的表现。此外,尽管在涉及基本回忆或创造性思维的任务中面临挑战,但 GPT4 的表现随着问题难度的增加而显着提高。因此,本文为 GPT4 在解决开放式问题方面的有效性提供了实证证据,增强了我们对其在教育环境中的潜力和局限性的理解。这些发现为寻求将 LLM 纳入教育实践(例如评估、虚拟助手和反馈)的从业者和研究人员提供了宝贵的见解。

关键词:大型语言模型·GPT4·问答·评估

简介

    大型语言模型 (LLM) 的最新进展引起了研究人员的注意,他们探索其在教育环境中的潜力 [22]。LLM 具有赋能智能辅导系统 (ITS) 的巨大潜力,因为 LLM 可能为 ITS 配备超出开发人员预期的问答功能 [19,22]。例如,它们可能使问答系统自动化(例如,学生辅导和详细的开放式反馈提供),以指导学习者完成整个学习过程 [6,19]。虽然先前的研究已经探索了类似的任务,但最近的文献强调需要用最先进的 LLMS 来更新教育创新 [22]。然而,关于问答 LLM 的文献仍然有限。

    先前的研究主要集中在基于 GPT 的 LLM 上,要么侧重于评估它们在回答多项选择题方面的有效性 [17],要么依靠上下文阅读材料使 LLM 能够回答开放式问题 [20]。此外,这些研究缺乏对 LLM 在回答不同难度和复杂程度的开放式问题方面的表现的全面评估,以及他们的语言能力与母语人士和非母语人士的比较 [13,17,20]。这种比较对于确保在教育技术领域负责任和合乎道德地部署 LLM 非常重要,因为这对于减轻基于人工智能的系统固有的潜在偏见至关重要 [21]。

    因此,本文提出了一项实证研究,评估 LLM 在教育背景下回答开放式问题的能力,将其表现与人类同行进行比较,并研究基于问题难度和复杂性的变化。为此,我们依赖于一个数据集,其中包含 7,380 个开放式问题,这些问题由母语人士和非母语人士或 GPT4 回答,其中问题的复杂性根据布鲁姆分类法的级别进行分类 [1]。此外,我们使用项目反应理论 (IRT) 来衡量问题难度并对每个问题获得更深入、更具体的理解 [5]。因此,本文提供了关于最先进的 LLM 在解决不同复杂程度的开放式问题方面的有效性的实证证据,为从业者和研究人员提供了有关其在教育环境中的潜力和局限性的见解。

文献综述

    LLM 发展迅速,成为各种自然语言处理 (NLP) 任务的强大工具 [23]。LLM 建立在 Transformer 架构 [18] 之上,拥有超过 1750 亿个参数 [4],通过自注意力机制捕获上下文依赖关系。最近的研究表明,它们有潜力在没有新训练的情况下适应各种任务 [16],促进知识转移 [4]。文献报道,随着 GPT-4 的推出,问答系统取得了进步 [15]。GPT-4 展示了对复杂查询的理解和响应能力的增强,显着增强了上下文理解和语言生成 [4]。

    最近的研究,特别是基于 GPT 架构的研究,证明了 LLM 在问答 (QA) 中的有效性,自动化问答过程 [6,19,22]。在 Divya [6] 中,研究人员比较了七个预训练的嵌入模型,以评估它们与学生答案的相似性。研究人员使用回归模型预测了 Mohler 数据集中简答题的分数,并使用 RMSE 和 Pearson 相关系数进行评估。另一项调查 [19] 探索了生成式人工智能作为自动化教师教练的潜力,重点是对成绩单片段进行评分,确定教学重点,并为学生推理提供可行的建议。专家评估表明,ChatGPT 的见解是相关的,但缺乏新颖性,在 82% 的情况下与现有的教师行为一致。在一项全面的范围审查 [22] 中,分析了 118 篇同行评审的论文,以了解使用 LLM 自动化教育任务的现状,揭示了实际和道德挑战,包括使用高级 LLM(如 GPT-4)更新现有创新。

    在 Rosol 等人 [17] 的研究中,波兰医学期末考试 (MFE) 期间广泛评估了两门 LLM,ChatGPT (GPT-3.5) 和 GPT-4 的有效性。评估涵盖了英语和波兰语的三个 MFE 版本(春季、2022 年秋季和 2023 年春季),重点关注模型准确性以及答案正确性与各种指标之间的相关性。无论考试语言如何,GPT-4 在所有 MFE 迭代中的表现始终优于 GPT-3.5。一项 K-12 教育研究 [13] 引入了一种混合自动问答系统,结合了基于知识的问答 (KB-QA) 和基于信息检索的问答 (IR-QA) 方法。

    该系统的实证评估涉及 9,000 多个问题,突出了其超过 70% 的惊人平均准确率,强调了混合方法在处理教育问题方面的有效性及其在增强 K-12 领域学习体验的潜力。在 de Winter [20] 中,研究了 GPT3.5 在荷兰全国高中考试中的表现。ChatGPT 的平均分数为 7.3,与全国学生平均分数 6.99 非常接近,证明了其熟练程度。GPT-4 以 8.3 的平均分超过了这一分数。

    这些研究为理解 LLM 如何促进 QA 做出了宝贵贡献。然而,现有的研究受到以下限制:依赖于小型数据集、侧重于特定领域、缺乏关于问题复杂性和难度如何影响 LLM 性能的研究,或者没有阐明它们的表现与人类(例如,母语人士和非母语人士)的表现相比如何 [13,17,20]。这很重要,因为全面了解 LLM 在不同背景下的通用性和局限性对于提高其实用性至关重要。解决这些差距将增强我们对 LLM、问题特征和人类表现之间关系的理解,促进更有效的应用和明智的发展。因此,对于 GPT4 等最先进的 LLM 在针对不同主题、复杂性和难度级别的问题的 QA 中的表现,人们缺乏了解。

方法

    本研究的目的是评估 GPT-4 回答不同主题开放式问题的能力,以了解其在不同难度和复杂程度的问题上的表现。为了解决这一差距,我们分别探索了布鲁姆分类法和项目反应理论 (IRT) 作为复杂性和难度的衡量标准。使用布鲁姆分类法级别分析模型的响应——从基础知识回忆到综合和评估等高阶认知技能——可以详细评估其在不同复杂程度下的理解和熟练程度。所有这些都有助于对模型能力进行更全面、更有信息的评估 [1]。此外,结合 IRT [14] 提高了评估过程的精确度,并提供了一种了解问题难度的原则性方法,确保评估准确衡量一个人的认知能力。因此,这种方法可以全面评估 GPT-4 的能力。

    我们编制了一个包含 738 个开放式问题的 7,380 个答案的大量数据集。数据集是通过 Clickworker1 众包平台生成的,采用的方法与先前的研究一致 [2,9]。首先,众包工作者负责在不同的布鲁姆分类法级别制定问题(“生成问题”)并关注特定主题(“主题”)。他们得到了详细的说明,解释了与每个分类法级别相关的概念,并辅以示例。每个生成的问题包含 5 到 20 个单词,最终有 738 个问题均匀分布在各个主题和布鲁姆分类法级别上。总的来说,数据集涵盖了与高中主题相关的三个不同主题:生物学、地球科学和物理学。其次,我们通过双重方法为每个问题生成答案。

    最初,我们让众包工作者为每个问题创建八个答案,将语言能力(母语人士和非母语人士)和性别(男性和女性)作为分层标准。此外,我们使用 GPT-4 模型为每个问题自动生成两个答案。因此,我们的数据集为每个问题包含 10 个答案,每个类别包含两个答案:母语为女性的说话者、非母语为女性的说话者、母语为男性的说话者、非母语为男性的说话者和 GPT-4。此外,数据集均匀分布在布鲁姆分类法的六个级别(记忆、理解、应用、分析、评估和创造)中,每个级别有 1,230 个(16.7%)实例。

    最后,众包工作者被分配使用 0 到 5 的评分标准评估答案的任务。评估标准定义明确:5 分表示答案优秀,4 分表示答案非常好,3 表示好的答案,2 表示可以接受但有些简单且缺乏细节的答案,1 表示答案稍微不清楚,0 表示被认为不正确或与问题不匹配的答案。在整个评估过程中,评估人员被指示考虑三个基本方面:内容的完整性、风格呈现和论证质量。这种有条不紊的评估过程旨在确保对每个响应进行全面评估,旨在提高我们数据集的可靠性和实用性。

    利用 GPT-4 功能的一个基本方面是创建结构良好的提示 [8]。提示的制定在优化 GPT-4 的性能方面起着关键作用,确保生成的响应与手头任务的预期目标和要求完全一致 [8]。在我们的场景中,提示是根据数据集创建第二阶段采用的指导方针制定的,包括答案评估和输出格式的标准。此外,我们加入了“逐步思考”的指令来提高 GPT-4 的性能 [11]。GPT-4 QA 的结论性提示是:

  • 说明:逐步思考以回答问题。
  • 标准:好的输出应该是连贯的,包括与问题相关的主要概念,并在回答中提出清晰的论证。
  • 输出格式:答案最多应有 100 个字,并且只能使用英文。
  • 数据输入:问题:[问题]。答案:

    数据分析过程基于分层线性建模 (HLM),因为我们的数据集具有分层/嵌套结构 [10]。该技术适用于这种类型的数据,因为它承认并控制特定组内数据的关系,这将违反经典回归分析的假设 [7]。为此,HLM 估计固定和随机效应(或系数)。固定效应涉及回归模型的整体结构,并且与它们的分组无关。随机效应捕捉组间差异,估计固定效应如何根据分组而变化。例如,虽然难度是固定效应,但布鲁姆分类法的级别可能与随机效应有关,并表明难度如何根据每个级别而变化。HLM 的第一步是数据准备。在这里,我们首先计算 IRT 参数。为此,我们使用了 Georgia Tech 项目反应理论包2。

    由于我们的因变量(即答案评估)采用李克特量表,因此直接的方法是使用多项式方法来估计该尺度上每个点的难度(例如,给定问题的评估 1、2 等的难度)。但是,当给定问题没有特定评估的答案时,其难度无法估计 [5]。因此,我们还使用二元方法提取了基于 IRT 的难度。为此,考虑到最高分是五分,我们的编码程序对于等于或大于三的评估是正确的,否则不正确。

    我们分别使用多项式和二元方法的部分信用和 Rasch 模型估计难度参数 [5]。在这两种情况下,我们都使用了边际最大似然。此外,我们通过分别估计 IRT 参数来识别数据集中的不同主题。当无法在多项式方法中估计参数时,我们会按照回归建模中的标准实验实践,用相似参数的平均值来填充它 [10]。最后,我们使用 z 分数对难度值进行标准化,以确保它们的平均值为 0。这对于回归模型很重要,因为它们有助于模型收敛和系数解释 [7]。

    HLM 的后续步骤是模型开发。为此,我们主要使用了两个 R3 包:lme4 和 lmerTest [3,12]。根据文献建议,我们采用自上而下的方法来优化模型开发过程 [10]。重要的是,我们根据两种方法(即多项式和二元)估计 IRT 参数,以符合我们数据集的特征。然而,在实践中,这些估计可能会重叠,产生相似的特征,这可能会使 HLM 复杂化而不是改进它 [7]。因此,我们决定开发两个模型,每个 IRT 方法一个,然后比较它们以了解哪一个提供最佳拟合。

    在我们的自上而下的模型开发中,我们首先为二元 IRT 方法拟合了一个完整模型。完整模型通常基于可用数据和研究人员的假设来定义 [10]。因此,我们的完整模型可以表示如下:在这里插入图片描述
其中:

  • eij 是第 j 组中第 i 个观察值的评估分数。
  • β0、β1、β2 和 β3 分别是截距、s(说话者)、d(难度)及其相互作用的固定效应系数。
  • γ0j 表示第 j 个分组变量(问题 ID、bloom、主题)的随机截距。
  • u0j 和 v0j 分别是第 j 个分组变量中 s(说话者)和 d(难度)的随机斜率。
  • sij 和 dij 是第 j 组中第 i 个观察值的 s(说话者)和 d(难度)的值。
  • δij 表示残差误差项。

    这个完整模型具有关于回答问题的人(GPT4、母语人士或非母语人士)和问题难度(标准化后)的固定效应,这是基于 IRT 估计的。由于难度对答案质量的影响可能会根据回答者的不同而变化,因此完整模型具有固定效应之间的相互作用。关于随机效应,完整模型具有针对问题、布鲁姆分类法级别和问题主题的随机效应,因此它们的截距可能因组而异。此外,为了进一步了解分组结构,完整模型允许布鲁姆级别和主题的斜率变化。因此,该模型有望捕捉基于 IRT 的难度如何影响 GPT4 答案的质量(与人类相比),同时控制由于问题主题和布鲁姆分类法级别而产生的变化。

    接下来,我们使用 lmerTest 的阶跃函数对不显著系数进行向后消除。此过程首先评估所有随机效应,然后对固定效应重复该过程 [12]。在每个步骤中,它都会根据文献 [10] 中推荐的似然比检验 (LRT) 程序评估删除系数是否会显著影响模型拟合。在这里,我们分别遵循随机系数和固定系数的 90% 和 95% 置信水平的项删除默认参数。值得注意的是,此过程可确保系数删除不会违反模型中项的层次结构。因此,它在遵循文献标准的同时优化了模型开发过程。

    最后,我们获得了二元方法的最佳模型。该模型仅包含对其拟合有显著影响的参数。然后,我们对多项式替代方案重复了此过程。唯一的区别是它有五个难度系数,每个李克特量表点一个,而不是一个。最后,我们使用相同的比较方法比较了两种方法的最佳模型,以定义我们的最终模型。

结果

    本节介绍了两种 IRT 方法的后向特征消除过程的结果,从而得出了我们的最终模型。然后,本节分析最佳模型,以了解哪些因素(例如说话者性质、问题难度和主题以及布鲁姆水平)会影响答案评估。 表 1 和表 2 显示了二元 IRT 方法自上而下的建模过程的结果。表 1 表明,唯一对模型拟合有显著影响的随机效应是根据回答问题的说话者而定的布鲁姆水平(p < 0.001)。在固定效应方面,表 2 显示,说话者和难度都显著影响模型拟合,但它们的相互作用没有显著影响(p 值均 < 0.01)。因此,二元方法的最佳模型以说话者和难度为固定系数,以布鲁姆分类法和说话者性质的水平为随机效应。

表 1. 二元 IRT 方法随机效应的非显著系数的向后消除。
在这里插入图片描述

表 2. 二元 IRT 方法固定效应的非显著系数的向后消除。
在这里插入图片描述

    表 3 和表 4 展示了多项式 IRT 方法自上而下的建模过程的结果。表 3 表明,与其他方法类似,对模型拟合产生显著影响的唯一随机效应是根据回答问题的说话者得出的布卢姆水平 (p < 0.001)。关于固定效应,表 4 表明,只有说话者与获得等于 5 的评价的难度之间的相互作用才具有统计显著性 (p = 0.004)。因此,多项式方法的最佳模型以说话者、难度 5 及其相互作用为固定系数,以及根据说话者的性质对布卢姆分类法水平的随机效应。

表 3. 多项式 IRT 方法随机效应的非显著系数的反向消除。
在这里插入图片描述

表 4. 多项式 IRT 方法的固定效应中不显著系数的向后消除。
在这里插入图片描述

    最后,我们比较了两种方法的最佳模型。 LRT 得出的差异不显著(χ2 = 0.4534;自由度 = 2;p 值 = 0.7972)。因此,没有证据表明基于多项式方法的模型(具有更多系数)比基于二元方法的模型提供更好的拟合度。因此,我们使用基于 IRT 的二元模型进行分析。

    我们的最佳模型总结在表 5 和表 6 中,分别展示了其固定系数和随机系数。请注意,截距与 GPT4 有关,因为它是模型的参考级别。因此,模型的系数(例如,母语人士)揭示了他们的评价与 GPT4 的评价相比如何。此外,回想一下,难度被标准化为 0。因此,为了便于解释我们的最终模型,我们用图讨论了它的见解。 1 和 2。

表 5. 基于二元 IRT 方法的最佳模型总结,在对固定和随机效应进行非显著系数的向后消除之后。
在这里插入图片描述

    图 1 说明了模型的随机效应如何比较。它表明系数的作用在于创建和记忆问题。总体而言,表 6. 最佳模型的随机效应,展示了与 GPT4(即截距/参考水平)相比,对于布鲁姆分类法的不同级别,它们对于母语人士和非母语人士的变化情况。GPT4(即截距,鉴于它是模型的参考水平)在这些问题上的表现与母语人士和非母语人士相比有所下降。
相比之下,GPT4 的随机系数似乎优于其余级别的问题。因此,这些发现表明 GPT4 在布鲁姆分类法的大多数级别中都具有优势,除了记忆和创造级别。
在这里插入图片描述

    图 2 有助于理解这些差异对于 IRT 测量的不同难度级别的问题的表现,展示了答案评估如何根据回答布鲁姆分类法不同级别的说话者而变化。有趣的是,该图显示 GPT4 的评估随着问题难度的增加而提高,而母语人士也遵循类似的趋势,斜率降低。相比之下,非母语人士的评价随着问题难度的增加而降低。

    此外,该图重申了根据布鲁姆分类法的截距差异。虽然 GPT4 似乎在所有级别上都表现出色或取得了可比的评价,但在记忆和创造级别的小难度问题上,它的表现比母语人士和非母语人士都要差。相反,在最困难的问题上,非母语人士在所有级别上的表现都不及 GPT4 和母语人士。因此,虽然 GPT4 似乎在高难度问题上表现最好,但它无法在难度低于平均水平的记忆和创造问题上胜过人类。

讨论

    我们的研究深入探讨了大型语言模型 (LLM),特别是 GPT4,在教育背景下回答开放式问题的能力。结果揭示了 GPT4、母语人士和非母语人士在不同复杂性(基于布鲁姆分类法的级别)和难度(基于项目反应理论)级别的问题上的比较表现,如下所述。总体而言,我们的研究表明,在控制问题的复杂性和难度时,GPT4 超越了非母语人士,并且表现出与母语人士相当的表现(见表 5)。虽然 GPT4 的能力与母语人士的能力非常接近,但未能超越他们的熟练程度。这一发现与以下观点相符:LLM 利用其广泛的训练数据,可以有效处理复杂而细微的任务,展示了其在教育技术中整合的整体潜力。

    然而,问题复杂性在调节整体优势方面发挥了重要作用。我们的研究结果表明,尽管 GPT4 在不同的布鲁姆水平上表现良好,但它在记忆和创造类别下面临困难(见表 6 和图 1)。对于这些特定的水平,母语人士和非母语人士似乎都比 GPT4 有优势。这些结果表明,GPT4 在需要简单回忆或创造性生成的任务中难以与人类熟练程度相匹配,这强调了在探索 LLM 时了解特定问题的具体复杂性的重要性。
在这里插入图片描述

图 1. 最佳模型的随机效应,展示了它们对于母语和非母语人士的变化情况,与 GPT4(即截距/参考水平)相比,针对不同级别的布鲁姆分类法。

    此外,我们发现问题难度是另一个重要因素。根据我们的研究结果(见图 2),GPT4 的评估呈现出一种有趣的趋势,即随着问题难度的增加而提高。这与非母语人士的趋势形成了鲜明对比,非母语人士的评估随着问题难度的增加而下降。随着问题难度的增加,母语人士的评估更加稳定。这一发现揭示了 GPT4 能够表现出色,尤其是在极具挑战性的问题上,尽管遇到解决特定复杂程度的挑战,强调辨别 LLM 面临的任务的复杂性和难度的重要性。

    总之,本文提供了实证证据,比较了 GPT4 和人类说话者(母语和非母语)在回答开放式问题方面的表现,考虑了问题的复杂性和难度。与以前的研究(侧重于多项选择题 [17] 或开放式问题的上下文补充 [13,20])不同,我们的研究分别基于 IRT 和布鲁姆分类法的级别,独特地评估了 LLM 在不同难度和复杂程度的问题上的表现。通过解决文献中的这一空白,我们扩展了对 GPT4 在开放式问答方面的表现的理解,并为未来的研究和技术整合提供了见解。
在这里插入图片描述

图 2. 基于我们的最佳模型,可视化答案评估如何根据说话者、布鲁姆水平和问题难度而变化。

    具体而言,我们的发现具有以下含义。首先,它们强调需要在开放式问题的背景下评估像 GPT4 这样的 LLM,同时考虑问题复杂性和难度之间的关系。其次,我们的研究关注 GPT4 的优势,特别是它在极具挑战性的问题上的熟练程度,以及它在涉及记忆和创造布鲁姆分类法级别的任务中的挑战。对于那些旨在在教育环境中使用 LLM 的人来说,这种详细的理解至关重要有效地。此外,我们的研究通过对 LLM 在开放式问题场景中不同难度和复杂性的表现进行全面评估,为现有文献增添了新的内容。

    在解释研究结果时,承认我们的研究存在局限性至关重要。我们的数据集评估了三个特定主题(生物学、地球科学和物理学)的英语语言问题,这些问题主要涉及高中科目,从而将研究结果的普遍性限制在了这个范围之外。进一步的研究可以探索 LLM 表现的跨语言差异。此外,该研究仅限于一个 LLM(GPT4)和一个提示。未来的研究工作可以深入研究其他 LLM,并探索提示工程,以了解它们如何影响 LLM 的熟练程度,特别是在涉及基本回忆和创造性思维的任务中。

    总之,我们的研究表明,在控制问题的复杂性和难度时,GPT4 超越了非母语人士,并表现出与母语人士相当的表现,这与有效融入教育技术的潜力相一致。然而,问题的复杂性削弱了 GPT4 的整体优势,揭示了在记忆和创造布鲁姆分类法层面的困难。值得注意的是,GPT4 在极具挑战性的问题上表现出色,与非母语人士形成鲜明对比,非母语人士的评价随着问题难度的增加而下降。这种详细的理解强调了在探索 LLM 的能力时辨别任务的复杂性和难度的重要性。在为开放式问答贡献实证证据时,我们的研究通过揭示根据问题的复杂性和难度评估 LLM 的必要性以及强调 GPT4 的优势和局限性来扩展文献。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值