Evaluating the Recommendations of LLMs to Teach a Visualization Technique using Bloom’s Taxonomy

三月七꧁ ꧂

已于 2024-08-15 20:56:44 修改

阅读量1k

点赞数 19

分类专栏：论文合集文章标签：人工智能语言模型 langchain microsoft 自然语言处理 gpt prompt

于 2024-08-12 14:12:51 首次发布

本文链接：https://blog.csdn.net/weixin_43961909/article/details/141129615

版权

论文合集专栏收录该内容

52 篇文章 0 订阅

订阅专栏

文章目录

题目

评估LLM关于使用布鲁姆分类法教授可视化技术的建议

在这里插入图片描述

论文地址:https://www.researchgate.net/publication/381382264_Evaluating_the_Recommendations_of_LLMs_to_Teach_a_Visualization_Technique_Using_Bloom’s_Taxonomy

摘要

近年来，大型语言模型 (LLM) 对教育和素养产生了巨大影响。我们使用布鲁姆分类法评估了两门流行的 LLM（OpenAI 的 ChatGPT 和 Google 的 Bard）提供的建议，以向新手传授平行坐标图 (PCP) 主题的知识。我们展示了由可视化素养领域的专家对这两门 LLM 提供的建议进行人工专家评估的结果。根据对专家评估的分析，我们发现虽然这两门 LLM 都提供了一些相关且实用的建议，但其中一些建议要么对新手来说太难，要么属于错误的认知过程（根据布鲁姆分类法）。在某些情况下，幻觉导致的建议完全不适用于平行坐标图素养。

大型语言模型 (LLM) 在高等教育中受到了广泛关注，因为它们有可能为学生提供考试和作业的解决方案。可视化素养领域也一直在考虑新颖的方法来教个人如何阅读和解释不熟悉的图表。确定向个人传授新的/不熟悉的可视化技术的“最佳”方法仍然是一个悬而未决的研究问题。越来越多的可视化技术（例如树形图、气泡图和平行坐标图 (PCP)）正在进入新闻媒体、健身应用和我们的日常生活。在本文中，我们分析了四位可视化素养专家的结果，他们审查了两个流行的 LLM（OpenAI 的 ChatGPT-3.5 和 Google 的 Bard 2.0.0）给出的建议。

专家们根据他们之前使用布鲁姆分类认知学习框架向学生教授 PCP 主题的经验，评估了 LLM 的建议。根据我们对专家提供的分数的分析，我们发现虽然许多 LLM 建议都很有用并且可能相关，但在某些情况下，这些建议完全不适合 PCP 素养。在某些情况下，这些建议适合 PCP 素养，但不属于布鲁姆分类法的适当认知阶段。专家们还表示，有些建议对新手来说太难了。
图 2 显示了我们流程的概述，包括从 LLM 获取建议、征求专家的建议、分析分数和展示调查结果。
以下是本文的贡献：

我们利用布鲁姆分类法确定了热门LLM提供的可视化素养建议。
可视化素养领域有使用布鲁姆分类法经验的专家评估了LLM提供的建议。
专家评估表明，LLM提供的建议虽然大多有用，但并不总是适用，有些可能存在重大错误。

背景

布鲁姆分类法布鲁姆分类法由 Benjamin S. Bloom 于 1956 年提出，作为教学和评估学习成果的认知框架。它包含六个相互依存的认知过程，使学习者能够在经历认知过程时获得并展示熟练程度。图 1 显示了从金字塔底部的记忆类别开始的六个认知过程。我们简要概述了布鲁姆分类法，

记住与概念相关的事实。能够记住并检索给定概念的基本特征是至关重要的第一步。正如 Kratwohl 所说，学习通常只关注这一步。
理解 - 这个过程与学习者展示他们解释、分类、描述他们对给定概念的理解的能力有关。
应用 - 在这个阶段，学习者有机会通过动手学习应用他们获得的知识来解决问题或执行一组步骤。
分析 - 这个过程要求学习者通过比较、区分和在先前概念和给定主题之间建立联系来应用他们的元认知过程，将他们学到的概念结合起来。
评估 - 随着学习者熟练程度的提高，他们批评或评价某种情况的能力至关重要。这需要更高阶的元认知，并要求学习者证明他们的决定是正确的。
创造 - 在最后一步，学习者需要综合他们获得的知识，并通过创造或制定新的或原创的作品来展示熟练程度。

图 1. 布鲁姆分类法中的六个认知过程。认知过程从金字塔底层的入门任务（例如回忆事实和记住概念）开始，到基于对给定焦点概念的深刻理解创作原创作品。

方法论

鉴于大型语言模型 (LLM) 在高等教育中的普及，我们希望评估它们向新手传授可视化技术的能力。我们之所以选择平行坐标图，是因为它们仍然不像树形图或箱线图那样流行，但在数据可视化研究领域已经很成熟。我们向 OpenAI 的 ChatGPT（GPT3.5）和 Google 的 Bard（2.0.0）提出了以下提示：“使用布鲁姆分类法，为新手生成提示，以了解平行坐标图。”我们收集了从 ChatGPT 和 Bard 收到的建议的多个“草稿”和重新生成的回复。各种草稿/重新生成的回复几乎与原始回复完全相同（只有细微的词语变化），因此我们使用了这两个 LLM 的原始建议集。

然后，可视化素养专家团队对这些建议进行了评估，该团队由三位从事数据可视化和可视化素养领域研究的教授和一位积极开展可视化素养研究的学生组成。每位专家都使用 7 点李克特量表（1 - 非常不同意至 7 - 非常同意）根据以下指标对每项建议进行评分：

LLM 提出的这一建议是否适合/与 PCP 相关？
LLM 提出的这一建议是否适合布卢姆分类法中的认知过程？
此外，我们还请专家就这些建议是否适合 PCP 素养发表评论。
对于布卢姆分类法中的每个认知过程，我们询问专家：这些问题是否适合 PCP 素养？
它们是否适合布卢姆分类法中的这个学习模块？

结果部分介绍了四位专家的评分总体结果和 LLM 的比较，以及对从专家那里收到的定性反馈的分析。图 2 显示了我们流程的示意图。我们现在介绍 ChatGPT 和 Bard 提出的使用布卢姆分类法向新手教授 PCP 的建议。Google Bard 的建议以下是 Bard 提供的建议，用于使用布鲁姆分类法向新手教授 PCP。

记住/识别 (Q1.1) 什么是平行坐标图？
(Q1.2) PCP 的优点和缺点是什么？
(Q1.3) 如何创建平行坐标图？
理解 (Q2.1) 解释如何使用 PCP 比较不同的数据集。
(Q2.2) 举例说明如何使用平行坐标图做出决策。
(Q2.3) 讨论可以定制 PCP 的不同方式。
应用 (Q3.1) 创建平行坐标图以显示班级考试成绩的分布。
(Q3.2) 使用平行坐标图比较学校男孩和女孩的身高。
(Q3.3) 解释平行坐标图的结果以提出建议。
分析 (Q4.1) 使用平行坐标图识别一组数据中的异常值。
(Q4.2) 使用平行坐标图比较两组不同数据的中位数。
(Q4.3) 使用平行坐标图计算一组数据的四分位距。
创建/合成 (Q5.1) 创建一种更适合特定类型数据的新型平行坐标图。
(Q5.2) 开发一种解释 PCP 的新方法。
(Q5.3) 撰写有关 PCP 在数据分析中的使用情况的报告。

在这里插入图片描述
图 2. 方法概述 - 我们提供了两个大型语言模型 (LLM)，OpenAI 的 ChatGPT 和 Google 的 Bard，并提示新手使用布鲁姆分类法教授 PCP。然后，我们让四位专家审查了关于 PCP 的适用性和布鲁姆分类法中特定认知过程的适用性的建议。我们分析了专家的评论并展示了我们的发现。

OpenAI ChatGPT 的建议以下是 ChatGPT 提供的建议，用于使用布鲁姆分类法向新手教授 PCP。

记住/识别 (Q7.1) 定义什么是平行坐标图及其在数据可视化中的用途。
(Q7.2) 列出平行坐标图的关键组成部分。
(Q7.3) 解释 PCP 与其他类型的图（例如散点图或条形图）的区别。
理解 (Q8.1) 总结创建平行坐标图所涉及的步骤。
(Q8.2) 描述可以使用 PCP 有效表示的数据类型。
(Q8.3) 解释平行坐标图中不同轴和线的含义。
应用 (Q9.1) 给定一个包含多个变量的数据集，创建平行坐标图以可视化数据中的关系和模式。
(Q9.2) 比较和对比不同数据集的 PCP，以确定其模式的相似之处和不同之处。
(Q9.3) 使用平行坐标图识别数据集中的异常值或异常情况。
分析 (Q10.1) 分析平行坐标图并识别变量之间的趋势、模式或关系。
（Q10.2）与其他类型的图表相比，评估使用平行坐标图表示特定数据集的有效性。
（Q10.3）比较多个 PCP 以确定变量之间关系的共同点或差异。
评估/批评（Q11.1）评估使用 PCP 作为数据可视化工具的优势和局限性。
（Q11.2）批评平行坐标图并提出改进或呈现数据的替代方法。
（Q11.3）考虑数据的性质和研究问题，判断在特定数据分析场景中使用平行坐标图的适用性。
创建/合成（Q12.1）创建具有附加功能或注释的自定义平行坐标图，以增强数据的视觉表示和解释。
（Q12.2）设计一种在构建平行坐标图时处理缺失或不完整数据的策略。
（Q12.3）设计一套指南或最佳实践，用于创建信息丰富且具有视觉吸引力的 PCP。

结果

在本节中，我们根据以下两个指标提供了对每位 LLM 所提建议的专家评审分析结果：

LLM 所提建议是否适合/与 PCP 相关？
LLM 所提建议是否适用于布卢姆分类法中的认知过程？

在这里插入图片描述
图 3. 记忆分析 - 上行显示 Bard 建议的得分结果，下行显示 ChatGPT 建议的得分。虽然两位法学硕士都推荐了适合 PCP 素养的任务，但右栏显示专家认为大多数建议不适合布鲁姆分类法的记忆阶段

图 3 显示了上行（Q1.1、Q1.2、Q1.3）中 Bard 建议得分的分析以及下行（Q7.1、Q7.2 和 Q7.3）中 ChatGPT 建议的分析。左栏显示了该建议是否适用于 PCP 的评分，右栏显示了该建议是否适用于布鲁姆分类法中的当前模块/认知过程。左上图显示，Bard 针对记忆模块/认知过程提出的建议对于 PCP 来说相当不错，所有三个建议的中位数均为 7，而右上图显示专家没有将这些问题评为适合布鲁姆分类法的记忆/识别阶段。

Q1.2 要求新手陈述 PCP 的优点和缺点。虽然该建议适用于 PCP，但在学习过程中要求新手进行比较和对比还为时过早。这个问题更适合放在布鲁姆分类法的评估或创造/综合阶段。同样，Q1.3 询问新手如何创建平行坐标图？鉴于布鲁姆分类法中有一个特定的创造阶段，这个问题在是否适合放在布鲁姆分类法的记忆阶段的中位数得分为 1（非常不同意）。图 3 的底行显示了对 ChatGPT 建议得分的分析。左图显示 ChatGPT 的所有三个建议的中位数得分都高达 6.5 或更高。右图显示了 Q7.3 专家评审员之间的一些分歧。在 Q7.3 中，建议是我们要求新手解释 PCP 与其他类型的图表（例如散点图或条形图）的区别。虽然这对于 PCP 素养来说是一个很好的建议，但专家评审员的评分表明它不是布鲁姆分类法中的适当阶段，特别是因为分析阶段要求学习者将正在学习的概念（在本例中为 PCP）与其他类似概念（其他类型的图表）进行比较和对比。

根据对专家的定性反馈的分析，共同的主题是 Google Bard 的建议被认为适合 PCP 素养，但其中一些建议不适合记忆模块。ChatGPT 的建议被认为更适合 PCP 素养和记忆模块，尽管一位专家评论说“Q7.3 对于布鲁姆分类法的记忆模块来说太高级了。”现在要求学生解释 PCP 与其他类型的图表的区别可能还为时过早。这也反映在如图 3 所示的评级中。

在这里插入图片描述
图 4. 理解分析 - 与记忆阶段类似，LLM 推荐的问题适用于 PCP 素养，但许多问题并不适合布鲁姆分类法的理解阶段。不过，诸如 Q8.2 和 Q8.3（底行）等建议在两个指标上都得分很高。

图 4 显示了专家评审员对法学硕士布鲁姆分类法理解阶段的评分分析。左上角的图表显示，巴德学院的建议被评为非常适合教授 PCP。右上角的图表显示，专家对这些问题的评分很低，这意味着它们不适合布鲁姆分类法的理解阶段。例如，Q2.3 要求学习者讨论可以定制 PCP 的不同方式。这在学习过程中还为时过早，可能不是学习者在此阶段可以做的事情。同样，Q2.1 和 Q2.2 也因要求学习者（Q2.1）解释如何使用 PCP 比较不同的数据集和（Q2.2）举例说明如何使用平行坐标图做出决策而获得低分。

另一方面，根据图 4 中的底部图表，ChatGPT 的建议似乎获得了高分。左下图显示，所有三项建议都适合教授 PCP。右下图显示 Q8.2 和 Q8.3 适合理解阶段，但 Q8.1 被认为不适合此阶段。这可能是因为 Q8.1 要求学习者总结步骤 -涉及“创建”平行坐标图。这个问题可能更适合学习过程的应用或创建/综合阶段。

我们分析了专家对该模块的定性反馈，发现 Bard 的建议适用于 PCP 素养，但它们被错误地放在了理解模块中，该模块的目标是确保学生能够准确地解释和理解图表。所有专家都认为 ChatGPT 的建议适用于 PCP 素养，但 2/4 的专家担心“Q8.2 对新学习者来说太高级了”。Q8.2 要求学生描述可以使用 PCP 有效表示的数据类型。

在这里插入图片描述
图 5. 申请分析 - Bard 的推荐信（上行）得分远低于 ChatGPT 的推荐信（下行）。这两个 LLM 的推荐信被认为不是特别适合申请阶段（右栏）。

图 5 显示了对 LLM 申请阶段建议的审阅者评分的分析结果。左上角的图显示，Bard 提出的三项建议中有两项在教授 PCP 方面得分较低。Q3.2 使用平行坐标图比较你学校男孩和女孩的身高得分很低，Q3.1 创建平行坐标图以显示你班考试成绩的分布也获得了 5 的中位数分数。右上角的图显示，这些建议也不适合申请阶段，问题 Q3.1、Q3.2 和 Q3.3 的中位数分数分别为 5、3 和 4.5。

图 5 的底行显示了 ChatGPT 收到的分数。虽然左下图看起来令人鼓舞，建议的高分适合教授 PCP，但右下图暗示某些建议可能不适合申请阶段。虽然 Q9.1 给定一个包含多个变量的数据集，创建平行坐标图以可视化数据中的关系和模式对于 PCP 和应用阶段是合适的，但 (Q9.2) 比较和对比不同数据集的 PCP 以确定其模式的相似性和差异性以及 (Q9.3) 使用平行坐标图识别数据集中的异常值或异常在应用阶段的适用性方面得分较低。

专家反馈的定性分析表明，Bard 的建议与 PCP 素养有一定关系，但诸如 Q3.2 之类的问题被发现“奇怪且不合适”。所有专家都认为问题 Q3.1 是非常适合这个“应用”学习模块，而 Q3.3 更适合之前的“理解”模块。关于 ChatGPT 的建议，所有四位专家都同意“虽然所有问题都适合 PCP 素养”，但其中一些问题（例如 Q9.2）更适合“分析”模块。这也反映在图 5 所示的评级中。

在这里插入图片描述
图 6. 分析比较 - Bard 为这一阶段提供的三项建议中的两项在两个指标上都获得了低分（顶行）。

ChatGPT 的建议被认为更适合 PCP，并且在两个指标上都获得了良好的分数。图 6 显示了对分析阶段的 LLM 建议所获分数的分析。顶行显示了 Bard 所获建议的分数。Q4.1 使用平行坐标图识别一组数据中的异常值因适合 PCP 和分析阶段而获得高分。Q4.2 使用平行坐标图比较两组不同数据的中位数和 Q4.3 使用平行坐标图计算一组数据的四分位距的另外两项建议由于与 PCP 的相关性低且不适合分类阶段而获得较低分数。Q4.3 是一个特别糟糕的建议，因为它要求学习者计算四分位距，这项任务根本不适合 PCP。

底行显示了 ChatGPT 给出的建议的得分。两个底部图的高中位数分数意味着这些建议适用于 PCP 素养并且适合分析模块。Q10.1 分析平行坐标图并识别变量之间的趋势、模式或关系，两个图表中的中位数均为 7，因为这被认为非常适合教授 PCP 并且处于分类的正确阶段。
定性分析可以更深入地了解建议的质量。Bard 的建议对 PCP 素养和本模块特别不利。Q4.2 和 4.3 并非都与 PCP 素养相关，是使用 LLM 时出现幻觉的一个例子 [20]。ChatGPT 对本模块的建议与 PCP 素养相关，其中一位专家表示，虽然这些任务对于在线实证研究来说可能“困难/模糊”，但“它们可能适合传统的课堂环境。”

在这里插入图片描述
图 7. 评估分析 - Bard 没有为评估阶段提供任何建议，因此没有针对 Bard 的分析。ChatGPT 提供的建议获得了高分，被认为适合 PCP 素养和评估阶段。

评估图 7 显示了对 ChatGPT 建议分数的分析结果。Bard 没有为这个阶段提供任何建议。这是出乎意料的，因为布鲁姆分类法（见图 1）将评估阶段作为学习过程不可或缺的步骤。ChatGPT 提出了三项建议，这些建议在是否适合向学习者传授 PCP 方面得分很高，并且也适合评估阶段。其中包括要求学习者评估 PCP 的优势和局限性、批评 PCP 并提出改进建议以及确定 PCP 是否适合特定数据分析场景的问题。

所有专家都认为 ChatGPT 的建议与 PCP 素养相关且合适。一位专家评论说“他们要求学习者证明他们可以评估使用 PCP 的适当性以及与其他可视化技术相比使用 PCP 可以获得什么”，而另一位专家表示“它们可能适合课程作业/家庭作业或课堂练习。”

在这里插入图片描述
图 8. 创建分析 - Bard 提供的两项建议因适合 PCP 素养而获得高分（左上）。ChatGPT 的所有建议均在 PCP 素养方面获得高分（左下）。除 Q12.1（右下）外，Bard 和 ChatGPT 的所有其他五项建议在分类法的创建阶段均获得低分。

图 8 显示了对 Bloom 分类法中创建阶段的 LLM 建议分数的分析。上行显示了 Bard 建议的分数。虽然 Q5.1 和 Q5.3 因适合 PCP 而获得高分（如左上图所示），但它们在创建阶段的适用性方面得分较低。Q5.2 开发一种解释 PCP 的新方法在两项评分中均获得低分，因为与 PCP 和分类法中的阶段缺乏相关性。

下行显示了 ChatGPT 建议的分数。所有三项建议都因适合 PCP 而获得高分。其中包括要求学习者创建 PCP、制定处理缺失数据的策略以及设计一套指南来创建具有视觉吸引力的 PCP 的问题。ChatGPT 的三项建议在建议是否适合创建阶段的量表上得分很高。

所有专家都认为 Bard 的大多数建议与 PCP 素养无关，不太合适。其中一位专家评论说，最后一项建议“Q5.3 - 撰写关于 PCP 在数据分析中的使用情况的报告”是“过于开放和冗长。我认为在这种情况下写报告不合适。”另一位专家并不完全同意，他说：“最后一个要求学习者写报告的问题与 PCP 素养有关。”在检查 ChatGPT 建议的反馈时，虽然专家们都同意这些问题适合 PCP 素养和创建学习模块，但 3/4 的专家认为这些问题“太高级了，对于非常高级的用户或研究人员来说是个好问题。”大多数专家都认为，虽然这些问题适合 PCP 素养，但对于初次学习 PCP 的学生来说，这些问题可能太难了。

讨论

根据我们对可视化素养专家提供的分数的分析，我们观察到 LLM 的大多数建议都适用于 PCP 素养。虽然它们中的许多并不属于布鲁姆分类法的适当认知阶段，但它们可以与可视化素养专家一起使用，作为起点。

总体而言，根据专家评审员的意见，我们可以得出结论，OpenAI ChatGPT 的建议是情境化的，适用于 PCP 素养，而谷歌 Bard 的建议与平行坐标素养的相关性相对较低（幻觉 [20]）。例如，对于应用建议，Bard 建议“使用平行坐标图来比较学校里男孩和女孩的身高。”这个建议并不合适，可能更适合箱线图。同样，Bard 建议，“创建一个平行坐标图来显示班级考试成绩的分布情况。”此建议也不适合使用平行坐标图可视化数据。

结论和未来工作

可视化素养专家评估了两个流行的 LLM（ChatGPT 和 Bard）使用布鲁姆分类法向新手教授 PCP 的建议。专家们根据两个指标评估了每一项建议，这两个指标与它们对 PCP 素养的适用性和对布鲁姆分类法六个阶段之一的适用性有关。

根据对专家评审员评分的分析，我们发现虽然有一些有用的建议可用于向新手教授平行坐标，但就该建议所属的适当认知过程而言，存在一些局限性。在某些情况下，建议提供的指导根本不适合 PCP 素养。我们还发现，这两个 LLM 提出的建议有时对于第一次学习 PCP 的新手来说太难或太高级了。我们建议，与 LLM 合作的人类专家可能会为可视化素养提出一套可行的建议。将来，我们计划进行一些基于机器的验证，我们将测试每个 LLM 验证自己的建议和其他 LLM 提供的建议的能力。