题目
GPT4 能解答教育类考试吗?基于问题复杂度和难度的答案质量实证分析
论文地址:https://link.springer.com/chapter/10.1007/978-3-031-64302-6_14
摘要
虽然大型语言模型 (LLM) 的最新进展表明它们有潜力应对这些挑战,但关于 LLM 如何很好地回答不同难度和复杂度的开放式问题的研究有限。本文通过比较 GPT4 与人类的表现来解决这一差距,考虑问题的难度(通过项目反应理论 - IRT 评估)和复杂性(基于布鲁姆分类法级别分类),使用与高中主题相关的 7,380 个开放式问题的数据集。总体而言,结果表明 GPT4 超越了非母语人士,并表现出与母语人士相当的表现。此外,尽管在涉及基本回忆或创造性思维的任务中面临挑战,但 GPT4 的表现随着问题难度的增加而显着提高。因此,本文为 GPT4 在解决开放式问题方面的有效性提供了实证证据,增强了我们对其在教育环境中的潜力和局限性的理解。这些发现为寻求将 LLM 纳入教育实践(例如评估、虚拟助手和反馈)的从业者和研究人员提供了宝贵的见解。
关键词:大型语言模型·GPT4·问答·评估
简介
大型语言模型 (LLM) 的最新进展引起了研究人员的注意,他们探索其在教育环境中的潜力 [22]。LLM 具有赋能智能辅导系统 (ITS) 的巨大潜力,因为 LLM 可能为 ITS 配备超出开发人员预期的问答功能 [19,22]。例如,它们可能使问答系统自动化(例如,学生辅导和详细的开放式反馈提供),以指导学习者完成整个学习过程 [6,19]。虽然先前的研究已经探索了类似的任务,但最近的文献强调需要用最先进的 LLMS 来更新教育创新 [22]。然而,关于问答 LLM 的文献仍然有限。
先前的研究主要集中在基于 GPT 的 LLM 上,要么侧重于评估它们在回答多项选择题方面的有效性 [17],要么依靠上下文阅读材料使 LLM 能够回答开放式问题 [20]。此外,这些研究缺乏对 LLM 在回答不同难度和复杂程度的开放式问题方面的表现的全面评估,以及他们的语言能力与母语人士和非母语人士的比较 [13,17,20]。这种比较对于确保在教育技术领域负责任和合乎道德地部署 LLM 非常重要,因为这对于减轻基于人工智能的系统固有的潜在偏见至关重要 [21]。
因此,本文提出了一项实证研究,评估 LLM 在教育背景下回答开放式问题的能力,将其表现与人类同行进行比较,并研究基于问题难度和复杂性的变化。为此,我们依赖于一个数据集,其中包含 7,380 个开放式问题,这些问题由母语人士和非母语人士或 GPT4 回答,其中问题的复杂性根据布鲁姆分类法的级别进行分类 [1]。此外,我们使用项目反应理论 (IRT) 来衡量问题难度并对每个问题获得更深入、更具体的理解 [5]。因此,本文提供了关于最先进的 LLM 在解决不同复杂程度的开放式问题方面的有效性的实证证据,为从业者和研究人员提供了有关其在教育环境中的潜力和局限性的见解。
文献综述
LLM 发展迅速,成为各种自然语言处理 (NLP) 任务的强大工具 [23]。LLM 建立在 Transformer 架构 [18] 之上,拥有超过 1750 亿个参数 [4],通过自注意力机制捕获上下文依赖关系。最近的研究表明,它们有潜力在没有新训练的情况下适应各种任务 [16],促进知识转移 [4]。文献报道,随着 GPT-4 的推出,问答系统取得了进步 [15]。GPT-4 展示了对复杂查询的理解和响应能力的增强,显着增强了上下文理解和语言生成 [4]。
最近的研究,特别是基于 GPT 架构的研究,证明了 LLM 在问答 (QA) 中的有效性,自动化问答过程 [6,19,22]。在 Divya [6] 中,研究人员比较了七个预训练的嵌入模型,以评估它们与学生答案的相似性。研究人员使用回归模型预测了 Mohler 数据集中简答题的分数,并使用 RMSE 和 Pearson 相关系数进行评估。另一项调查 [19] 探索了生成式人工智能作为自动化教师教练的潜力,重点是对成绩单片段进行评分,确定教学重点,并为学生推理提供可行的建议。专家评估表明,ChatGPT 的见解是相关的,但缺乏新颖性,在 82% 的情况下与现有的教师行为一致。在一项全面的范围审查 [22] 中,分析了 118 篇同行评审的论文,以了解使用 LLM 自动化教育任务的现状,揭示了实际和道德挑战,包括使用高级 LLM(如 GPT-4)更新现有创新。
在 Rosol 等人 [17] 的研究中,波兰医学期末考试 (MFE) 期间广泛评估了两门 LLM,ChatGPT (GPT-3.5) 和 GPT-4 的有效性