Assessing ChatGPT’s Mastery of Bloom’s Taxonomy Using Psychosomatic Medicine Exam Questions: Mixed-M

三月七꧁ ꧂

于 2024-08-14 15:43:25 发布

阅读量291

点赞数 21

分类专栏：论文合集文章标签： chatgpt 语言模型 gpt 人工智能自然语言处理 prompt

本文链接：https://blog.csdn.net/weixin_43961909/article/details/141191110

版权

论文合集专栏收录该内容

40 篇文章 0 订阅

订阅专栏

文章目录

题目

使用心身医学考试题目评估 ChatGPT 对布鲁姆分类法的掌握程度：混合方法研究

在这里插入图片描述

论文地址:https://www.jmir.org/2024/1/e52113

摘要

GPT-4（生成式预训练 Transformer 4）等大型语言模型在医学和医学教育中的应用越来越广泛。然而，这些模型容易产生“幻觉”（即输出看似令人信服但实际上并不正确）。目前尚不清楚大型语言模型的这些错误与布鲁姆分类法中定义的不同认知水平有何关系。目的：本研究旨在使用心身医学考试问题探索 GPT-4 在布鲁姆分类法方面的表现。方法：我们使用了一个大型心身医学多项选择题数据集（N=307），其真实结果来自医学院考试。GPT-4 使用两个不同的提示版本回答多项选择题：详细和简短。使用定量方法和定性方法分析答案。针对回答错误的问题，我们根据布鲁姆分类法的层次框架对推理错误进行分类。结果：GPT-4 在回答考试问题时的表现取得了很高的成功率：详细提示的成功率为 93% (284/307)，简短提示的成功率为 91% (278/307)。GPT-4 正确回答的问题在统计上明显比错误回答的问题难度更高 (详细提示的 P=.002，简短提示的 P<.001)。与提示无关，GPT-4 的最低考试成绩为 78.9% (15/19)，因此始终超过“通过”的门槛。我们根据布鲁姆分类法对错误答案进行了定性分析，结果表明错误主要出现在“记忆”(29/68) 和“理解”(23/68) 认知层面；具体问题出现在回忆细节、理解概念关系和遵守标准化指南方面。结论：GPT-4 在处理心身医学多项选择题时表现出了惊人的成功率，这与之前的研究结果一致。通过布鲁姆分类法进行评估时，我们的数据显示，GPT-4 偶尔会忽略特定事实（记忆）、提供不合逻辑的推理（理解）或未能将概念应用于新情况（应用）。这些错误是自信地呈现的，可以归因于固有的模型偏差和产生最大化可能性的输出的倾向。

关键词答案；人工智能；评估；布鲁姆分类法；ChatGPT；分类；错误；考试；检查；生成式；GPT-4；生成式预训练 Transformer 4；语言模型；学习成果；llm；MCQ；医学教育；医学考试；多项选择题；自然语言处理；NLP；心身；问题；回答；分类法

人工智能 (AI) 的最新发展对各个领域都有变革潜力，包括医学和医学教育。2022 年 11 月，OpenAI 推出了大型语言模型 (LLM) GPT-3 (Generative Pre-trained Transformer 3)。它的高质量表现甚至让专家都感到惊讶，并引起了公众的极大兴趣（特别是在学校和高等教育环境中，GPT-3 引发了关于其潜在好处和危害的多方面讨论）。在医学教育中，LLM 有可能彻底改变当前的教学方法，从而最终提高医生的表现和医疗保健结果。然而，在 LLM 彻底融入医学教育之前，必须全面评估它们在这种背景下的表现。在教育理论框架内评估 AI 和 LLM 的能力尤为重要。医学教育中最常用的框架之一是布鲁姆于 1956 年首次提出的学习成果分类法。简而言之，布鲁姆及其后来的同事开发了一种认知过程的层次分类，从低阶认知技能（如知识回忆 (remember) 和理解 (understand)）到高阶思维（如应用 (apply)、分析 (analyze)、评估 (evaluate) 和创造 (create)）。

自 1956 年首次出版以来，该分类法一直被用作教育讲师的通用语言，至今仍影响着医学教育领域。布鲁姆通过他的工作为现在的成果导向教育做出了重大贡献，并为其他教育理论奠定了基础，例如米勒的临床能力金字塔。虽然布鲁姆分类法被广泛使用，并提供了一种结构化的学习成果方法，但一些教育工作者认为，它的层次性可能并不总是代表学习的复杂性。尽管布鲁姆分类法源自人类的学习过程，但它提供了一个理想的框架来描述成功和失败背后的认知过程。最近，法学硕士在医学的各个领域（令人惊讶的是，大部分表现都很好）的表现得到了评估，从特定科目到董事会考试。然而，llm所犯的错误并没有得到详细评估。例如，虽然llm可能成功地回忆起事实（记住），但他们可能很难将这些事实应用到不同的环境中，反之亦然。

我们承认，使用“记住”和“挣扎”等术语是为了方便阅读而使用的拟人化说法，因为目前，LLM 既不提供上述功能，也仅使用“下一个词预测范式”根据语言使用统计概率生成答案。因此，我们旨在使用布鲁姆分类法来更好地理解 LLM 的失败之处。对于人类医学教育和前面提到的 LLM 用例，多项选择题 (MCQ) 仍然是主要的书面考试形式，用于总结性和形成性评估。在布鲁姆分类法中，MCQ 通常用于评估低阶认知技能，例如知识回忆 (remember) 和理解 (understand)，但它们也可能探究高阶思维，例如应用 (apply)、分析 (analyze) 和评估 (evaluate)。因此，MCQ 为评估不同的认知过程提供了合适的视角。

严重依赖语言和事实理解的医学领域有助于阐明认知过程和正确或错误的推理。鉴于心理、社会和生物因素的相互作用，心身医学就是一个典型案例。该领域在诊断和治疗方面严重依赖口头和书面交流，因此特别具有挑战性。此外，严格的诊断标准与对患者语言的细致理解相结合，使其成为语言模型功能的理想试验场。我们提出了一项混合方法研究，旨在探索 GPT-4 在布鲁姆分类法方面的表现。首先，我们用大量的心身医学考试问题评估了 GPT-4 的性能，并将结果与一群医学生的回答进行了比较，从而提供了人工比较和质量指标。为了更深入地了解结果，我们使用定性方法来理解模型的性能，并评估 LLM 相对于布鲁姆分类法的优势和劣势。这项研究的结果为 LLM（如 GPT-4）在医学教育中的实际应用和局限性提供了重要的见解。

方法

考试从心身医学与心理治疗系网络考试项目的综合管理系统中检索了从 2014-2015 年冬季学期到 2022 年夏季学期的共 16 份考试（图 1 以图形方式说明了我们的方法）。除了问题主干、答案和干扰项外，该系统还为每个单独的问题提供了质量标准。
在这里插入图片描述
每场考试包含 20 道选择题，每道选择题有 1 个答案和 4 个干扰项。诊断和治疗问题涵盖焦虑症、抑郁症、饮食、躯体形式障碍和创伤障碍等主题。考试还包括有关动机访谈技术的问题。为了将 GPT-4 的表现与学生的表现进行比较，我们从系统中检索了难度级别，以相应问题的平均分数计算。本科医学生在第三年末参加包含这些问题的考试，在此之前，他们已经参加了 7.5 小时的讲座和 18 小时的心身医学和心理治疗实践课。要通过考试，学生通常需要正确回答 20 道题中的 12 道；例如，如果某个问题的表现太差，则可以调整此及格分数。我们评估了这些问题是否适合用 GPT-4 分析。从总共 320 个问题中，排除了 13 个（4%），包括非单选题的问题（n=6）、模棱两可的问题（n=3）、需要分析的图形问题（n=2）以及涵盖多个问题所代表的案例的问题（n=2）。

我们使用 GPT-4 回答每个问题（模型“gpt-4”，OpenAI LP）。对于每个问题，我们都生成了一个详细的提示版本和一个简短的提示版本。提示由作者使用 Web 界面 ChatGPT Plus 以迭代过程创建，以实现理想的性能。两个版本之间最相关的区别是详细提示包含一个命令，用于批判性地反思答案并证明所做的选择。表 1 提供了详细提示的示例。我们使用 OpenAI 提供的应用程序编程接口 (API) 将问题发布到 GPT-4 并检索答案（访问日期为 2023 年 3 月 21 日和 3 月 22 日）。每个问题和答案都发布在自己的会话中。与 GPT-4 的所有交互都是以德语（考试问题的原始语言）进行的；出于本文的目的，这些问题被手动翻译成英语。

数据分析将 GPT-4 给出的答案与答案索引（例如“A”或“C”）指示的答案进行比较，并存储在 Excel（版本 16.0.10394.20022；Microsoft Corporation）中。定量数据分析使用 R（R 版本 4.3.1；R Core Team）统计软件 [19] 进行定量分析和图形生成。简而言之，我们将所有表格与相关数据（即来自 GPT-4 的答案和学生考试的汇总数据（例如项目难度））结合在一起。对于每个提示版本，我们分析了正确回答的问题与错误回答的问题的比例。我们进一步比较了 GPT-4 正确和错误回答的问题的难度（取自汇总的学生数据）。

问题的难度被操作化为正确回答问题的学生比例，其中 0 代表非常难的问题，1 代表非常简单的问题。使用 Wilcoxon 秩和检验来检验统计显着性。 P<.05 水平被认为具有统计学意义。如果没有特别说明，结果以中位数和 IQR 表示。定性数据分析共有 2 位作者（TFW 和 FH）分别对每个文本响应进行编码。根据 Mayring 的定性内容分析，对 GPT-4 的答案进行了归纳和迭代分析，正如我们小组 [22] 之前所述。分析的目标是根据考试问题的答案定义的。对于主要类别，我们使用问题的正确或错误答案，然后进一步主要关注错误答案。

在答案文本中，根据 Krathwohl [8] 修订的布鲁姆分类法对个人推理进行分类。简而言之，我们在评分程序中使用了以下认知领域的定义：

记住：从长期记忆中检索相关知识。
理解：确定教学信息的含义，包括口头、书面和图形交流。
应用：在给定情况下执行或使用某个程序。
分析：将材料分解为组成部分，并检测各部分之间的相互关系以及与整体结构或目的的关系。
评估：根据标准和标准做出判断。

在第二步中，每个评分者都使用 MAXQDA（版本 12.3.2；VERBI 软件）对答案进行编码。为了在构建类别时获得相同的抽象级别，评分者一起修改代码并就最终类别达成一致，解释代表性示例并根据找到的代码构建类别层次结构。随后，两位初始评分者再次独立研究材料。

每个评分者单独分析 GPT-4 给出的答案并使用 MAXQDA 构建代码，包括主要分类（正确或错误答案），然后是布鲁姆分类法的类别和一个例子。当他们无法就某个类别达成一致时，会咨询另外 2 名专家以达成共识。当 GPT-4 的回答错误时，将使用布鲁姆分类法的各个层次（记忆、理解、应用、分析、评估和创造）来分析解释。伦理考虑图宾根大学医院医学院伦理委员会批准了这项研究（编号 076/2023A）。所有数据均保持匿名，与个别学生无关。

结果

定量结果正确和错误回答问题的分布对于详细提示，GPT-4 正确回答了 92.5% (284/307) 的问题；对于简短提示，成功率为 90.6% (278/307)。分布如图 2 所示。

在这里插入图片描述

问题难度在所有问题中，中位数难度为 0.892（IQR 0.705-0.949）。正确和错误回答的问题难度分布如图 3 所示。对于详细提示，正确回答的问题难度更高（中位数 0.900，IQR 0.737-0.952），而错误回答的问题难度更高（中位数 0.705，IQR 0.380-0.885）。这种差异具有统计学意义（P=.002）。在对简短提示的分析中，我们还发现，与正确回答的问题（中位数 0.904，IQR 0.741-0.953）相比，错误回答的问题难度更低（中位数 0.708，IQR 0.500-0.864）。在这里，我们也发现了正确回答和错误回答的问题之间存在显著差异（P<.001）。

考试成绩我们进一步分析了 GPT-4 在所有 16 项单独考试中的表现（图 4）。无论提示版本如何，GPT-4 的得分从未低于 78.9%，因此总能通过考试。此外，3 项考试（两个提示版本的考试“WS17/18”和仅详细提示版本的考试“SS16”和“SS19”）以 100% 的成绩通过。

在这里插入图片描述
定性结果在获得定量结果后，我们使用内容分析法详细分析了 GPT-4 给出的答案。正确回答的问题当 GPT-4 正确回答问题时，它会提供详细或简短的解释（表 2）。在详细版本中，GPT-4 还对干扰项进行了评论。对于正确回答的问题，内容分析揭示了逻辑推理和对事实的正确使用。对于引用的事实，没有发现任何不合理或不正确的答案。
在这里插入图片描述

回答错误的问题当 GPT-4 错误回答问题时，使用布鲁姆分类法分析解释的推理，其领域包括“记住”、“理解”、“应用”、“分析”、“评估”和“创造”（表 3）。发现最多的错误与“记住”有关，其次是“理解”和“应用”，而“评估”仅发现 1 个错误推理示例。在以下部分中，将详细给出每个类别的示例。

在这里插入图片描述

布鲁姆分类法：记忆本节提供了一个 GPT-4 无法记住事实的问题示例。该问题介绍了一名男性的病例，该男性反复出现身体不适而无器质性原因；这些不适持续了 10 个月，适合诊断为“未分化躯体形式障碍”（根据国际疾病分类第 10 版 [ICD-10]，为 F45.1）。不能选择“躯体化障碍”（F45.0），因为这需要“症状持续至少 2 年”。然而，GPT-4 错误地选择了“躯体化障碍”。在其推理中，GPT-4 指出：……我会选择答案 C：躯体化障碍（F45.0）作为该患者最合适的诊断。躯体化障碍（F45.0）的特点是持续、多种和复发的身体不适，但找不到足够的器质性原因。这些症状可以发生在不同的器官或功能系统中，通常严重到足以干扰患者的日常生活。

在这里插入图片描述

在回忆中，GPT-4 没有提到 ICD-10 中规定的症状所需的持续时间。因此，从答案中可以看出，GPT-4 使用的概念至少遗漏了 1 个重要事实，而这一失败可以归因于 GPT-4 没有“记住”。布鲁姆分类法：理解 GPT-4 不理解一些基本概念的一个例子可以在有关神经性厌食症的问题中找到。答案与神经性厌食症可以伴有短暂性高胆固醇血症，不需要治疗。然而，GPT-4 选择了其中一个干扰项，该干扰项指出基础代谢率在低体重阶段会增加，在恢复进食后会降低，但事实恰恰相反。在解释中，GPT-4 考虑了这些事实（甚至在第 3 句中正确地记住了它们！），但似乎并不了解它们之间的关系和相互作用。

在神经性厌食症患者中，基础代谢率最初在体重增加开始时升高，在恢复进食期间急剧下降。应相应调整食物摄入量。这里的基础代谢率是指身体在休息时维持基本功能所需的能量。在神经性厌食症患者中，由于持续的营养缺乏，身体最初非常有效地获取能量。然而，随着恢复进食的进展，随着身体重新学会储存能量，基础代谢率急剧下降。布鲁姆分类法：应用布鲁姆分类法的第三级涉及将先前学到的内容应用到其他领域。当我们向 GPT-4 询问有关抑郁发作的诊断和治疗的问题时，这个领域的一个错误显而易见。正确的答案是症状或标准必须存在至少 14 天，这是 ICD-10 明确要求的。
然而，GPT-4 将此答案评为不正确，并暗示这个时间范围更像是一个粗略的指导方针，而不是严格的最低要求。

在抑郁发作的诊断中，时间标准是一个重要因素。然而，许多专家认为，至少两周的时间是一个粗略的指导方针。一些患者也可以在更短的时间内经历抑郁发作，或者在更长的时间内满足标准。这揭示了布鲁姆分类法“应用”层面的一个问题。GPT-4 似乎“记住”了关于时间标准的事实，并“理解”了它的概念。然而，它在“应用”这条规则时遇到了困难，在传统的僵化中提出了灵活性。这可以解释为对学习规则的错误应用，因此是布鲁姆分类法应用层面的错误。

布鲁姆分类法：评估 GPT-4 在一个更复杂的问题中在布鲁姆分类法的“评估”层面犯了一个错误，这个问题测试了人们对患者理想疗法的判断。由于复杂性，问题在此完整呈现：一名 57 岁的成衣制造商因持续背痛被家庭医生转诊到心身门诊。她报告说下背部疼痛“非常严重”。因此，她已经七个月无法工作，几乎无法入睡。没有人能帮助她；家庭医生只是把她从一个医生转到另一个医生。（她带来的骨科、神经内科、神经外科和放射科的发现她表现出多个层面的轻微椎间盘变化，但没有神经系统缺陷）。她不想接受手术，因为“他们可能无法从她这个有公共保险的患者身上赚到足够的钱”。现在家庭医生给她开了抗抑郁药，但她不会吃。她仍然有好转的希望，但如果继续这样下去，她不知道自己是否会结束生命。第一种行动方案是什么？

A：立即入住精神病房，必要时可以违背患者的意愿
B：开始住院心身治疗
C：在服用非甾体抗炎药的情况下观察症状
D：在当前影像学检查后获得神经外科第二意见
E：澄清继发性疾病增益并立即终止工作能力丧失。

当我们使用简短提示时，GPT-4 选择了答案 B：计划心身住院治疗。在其简短的解释中，GPT-4 正确判断了为什么这是最有可能的答案。然而，当我们使用详细的提示时，GPT-4 选择了干扰项 E，并立即让患者有效地恢复工作，并辩称：经过仔细考虑，答案 E 最合适，但需要修改。详细解释心身相关性和继发性疾病增益的可能作用可能有助于患者更好地了解自己的情况，因此是指示性的。然而，不应强迫立即停止无行为能力，因为这可能会加剧患者的痛苦和沮丧。首先寻求门诊心身治疗以帮助患者应对疼痛并专注于长期康复是有意义的。

在这个例子中，很明显 GPT-4 知道事实（记住），理解它们（理解），将它们应用于这种情况（应用），并正确分析情况（分析）。甚至可以观察到 GPT-4 进行评估，但它未能评估其决策的后果。虽然 GPT-4 似乎意识到了这一点并想要修改给定的答案，但它错误地评估了答案选项并且不建议住院心身治疗。

讨论

主要发现基于 LLM 的工具正在迅速发展并影响医学和医学教育。在这项研究中，我们表明 GPT-4 在回答心身医学问题时具有很高的准确率，成功率远高于 90%。这证实了其他研究的结果，这些研究也显示了例如 USMLE（美国医师执照考试）和其他委员会考试中的高考试成绩。虽然我们发现我们的两个考试的正确率都很高详细提示和简短提示版本，当我们使用详细提示时，GPT-4 正确回答了更多问题（284/307，92.5% vs 278/307，90.6%）。虽然这项研究的目的不是评估造成这种差异的原因，但有两个可能的解释值得关注。首先，两个提示版本的差异率可能代表了 LLM 相对于提示版本的表现的真实差异。

其次，这种差异可能是由于已知即使多次使用同一提示也会发生的随机变化造成的。我们还对 GPT-4 与医学生的表现进行了比较。在这里，我们的分析表明，GPT-4 正确回答的问题比错误回答的问题容易得多。在详细提示和简短提示版本中都可以观察到这种差异。为了进一步比较，应该注意的是，问题难度不是一个固定或静态的变量，而是依赖于人类学生的反应并根据其计算得出的。然而，为了理解为什么 GPT-4 在某些问题上失败了，我们进一步使用定性方法分析了错误回答的问题。众所周知，不正确或不准确的信息是法学硕士的一个重要问题。

布鲁姆分类法已成为描述学习背后认知过程的常用标准。据我们所知，GPT-4 在布鲁姆分类法中犯认知错误的级别尚未阐明。因此，我们对 GPT-4 提供的答案和推理进行了详细评估。在我们的分析中，我们发现大多数错误都是在布鲁姆分类法的最低级别“记住”中犯的。在这些答案中，GPT-4 未能命名或使用特定事实，这在文本响应中很明显。在上一节介绍的示例中，GPT-4 列出了躯体化障碍的大多数诊断标准，但没有提到时间标准。在此背景下，值得注意的是，GPT-4 已使用公开可用和许可的数据进行训练（尽管 OpenAI 并未详细说明这些数据）。本例中所需的信息在 ICD-10 中是公开可用的，因此预计将包含在 GPT-4 训练数据中。事实上，当作者询问时，ChatGPT（使用 GPT-4）表示其训练数据包括有关 ICD-10 的详细信息。

在最近的一项研究中，Johnson 等人评估了 ChatGPT 在提供医疗信息方面的准确性。使用定量方法，他们发现 GPT-3.5 提供的医疗答案范围从“大部分正确”到“几乎正确”。值得注意的是，这些结果是使用 GPT-3.5 生成的，这是一个比我们使用的模型更老的模型：据称 GPT-4“比 GPT-3.5 产生事实反应的可能性高 40%”，并且在医学检查中表现出更好的表现。然而，Johnson 等人报告的结果与我们的发现一致：虽然 GPT-4 正确且完整地使用了大多数事实，但有时在具体细节方面会失败。在心身医学中，我们观察到这是一个诊断标准；虽然这可能是一个问题，但在其他领域遗漏一些具体事实可能会产生很大的不同患者结果。因此，对于那些在医学中使用 GPT-4 的人来说，重要的是要记住，具体事实可能是错误的或缺失的。

在布鲁姆分类法的第二级“理解”中发现了一些错误。虽然 GPT-4 通常表现出良好的推理能力并且错误很少，但我们惊讶地发现，一些答案产生了明显的逻辑缺陷，如上一节中的示例所示。在响应中，GPT-4 自信地呈现了一组逻辑上不相关的句子。从机制上讲，GPT 等语言模型使用似然最大化，根据最有可能的内容生成文本。然而，这种方法可能会导致所谓的幻觉，或“无意义或不忠于所提供源内容的内容”。由此产生的医疗信息可能听起来非常自信，但却是不正确的，从而对医疗应用构成重大威胁。这引发了人们对将人工智能系统用于患者相关工作的伦理担忧，特别是因为 GPT-4 的算法和伦理模型是未知且多变的。由于 GPT-4 不被认为是有感知能力的，因此它既不知道也不关心其响应的准确性。

我们还发现了一些代表布鲁姆分类法级别“应用”的错误。在上一节中介绍的代表性示例中，GPT-4 在应用非常严格的时间标准方面非常灵活。这可以在训练 LLM 的过程中进行解释。尽管关于这个过程的发表很少，但分类系统可能只代表了某一主题的一小部分可用数据。可以进一步假设，为公众设计的信息可能不像严格的诊断标准那样具体，因为它服务于另一个受众。因此，按照 GPT-4 的似然最大化方法，LLM 可能会忽略特定但可能代表性不足的信息。此外，据观察，GPT-4 在纯计算任务中表现不佳，这可能也挑战了严格的数值标准。这并不完全令人惊讶，因为 GPT-4 是 LLM（侧重于语言），并非旨在用作计算器。我们发现只有 1 个错误可以归类为布鲁姆分类法中的“评估”级别，其中 GPT-4 错误地判断了医学上复杂的情况。

局限性

这项研究有一些值得讨论的局限性。首先，我们使用了布鲁姆分类法。虽然它为认知过程提供了良好的操作化，但分类法代表了一个连续体，其中一个问题可以激活 1 个以上的级别。尽管如此，我们观察到大多数错误只能归因于 1 个认知水平。其次，我们选择了心身医学中的问题，因为该领域的许多方面可以用书面语言来涵盖，不需要图像或大量数字。然而，心身医学是一门专业，其治疗可以个性化，而且特别复杂，这使得分类判断更加困难，并可能降低该领域以外的普遍性。第三，由于我们仅使用 GPT-4 作为我们的 LLM，因此我们无法判断我们的结论是否适用于其他模型。第四，我们的数据是在特定日期获取的 1 次。由于GPT-4 的性能会随时间而变化，这可能会降低普遍性 [36]。最后，在本研究中，我们使用每个考试问题的难度指数将 GPT-4 的表现与医学生的表现进行了比较。值得注意的是，这个难度指数特定于参加代表性考试的特定医学生群体。

结论

总之，我们发现 GPT-4 在心身医学问题上表现非常出色。从问题难度级别可以看出，GPT-4 正确回答的问题对人类学生来说也比回答错误的问题更容易。在分析 GPT-4 的错误时，我们发现大多数错误对应于低阶认知水平，特别是“记忆”和“理解”。虽然我们发现了一些“应用”的错误，但“分析”和“评估”的错误很少或没有发现（“创造”在本研究中无法评估）。据我们所知，这项研究是第一个描述 GPT-4 在心身医学背景下犯错的认知水平的研究。

这项研究具有重要意义。首先，GPT-4 已经能够回答 (心身) 医学中的许多问题，因此，如果这项技术可用，它可能会降低总结性评估的有效性。其次，GPT-4 有时无法准确掌握事实、正确理解和应用知识；然而，如果没有确切的知识，这些失败就很难识别。因此，必须检查 GPT-4 生成的输出的准确性，尤其是在这些领域。我们的研究还可以帮助模型训练，未来的研究可以使用我们的结果来关联模型训练和 LLM 结果。

三月七꧁ ꧂

关注

21
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
Assessing ChatGPT’s Mastery of Bloom’s Taxonomy Using Psychosomatic Medicine Exam Questions: Mixed-M

GPT-4（生成式预训练 Transformer 4）等大型语言模型在医学和医学教育中的应用越来越广泛。然而，这些模型容易产生“幻觉”（即输出看似令人信服但实际上并不正确）。目前尚不清楚大型语言模型的这些错误与布鲁姆分类法中定义的不同认知水平有何关系。目的：本研究旨在使用心身医学考试问题探索 GPT-4 在布鲁姆分类法方面的表现。方法：我们使用了一个大型心身医学多项选择题数据集（N=307），其真实结果来自医学院考试。GPT-4 使用两个不同的提示版本回答多项选择题：详细和简短。
复制链接

扫一扫