Towards Mitigating ChatGPT’s Negative Impact on Education: Optimizing Question Design through Bloom’

题目

减轻 ChatGPT 对教育的负面影响:通过布鲁姆分类法优化问题设计

在这里插入图片描述

论文地址:https://ieeexplore.ieee.org/document/10223662

摘要

    生成文本 AI 工具在回答问题方面的流行引发了人们对其可能对学生学业成绩产生负面影响以及教育工作者在评估学生学习方面面临的挑战的担忧。为了解决这些问题,本文介绍了一种进化方法,旨在确定最佳的布鲁姆分类关键词集,以生成这些工具对回答信心较低的问题。通过一个案例研究评估了这种方法的有效性,该案例研究使用了澳大利亚堪培拉新南威尔士大学教授的数据结构和表示课程中的问题。结果表明,优化算法能够从不同的认知水平找到关键词来创建 ChatGPT 对回答信心较低的问题。这项研究向前迈出了一步,为寻求创造更有效的问题以促进学生批判性思维的教育工作者提供了宝贵的见解。

索引词——进化计算、遗传算法、生成文本 AI 工具、ChatGPT、布鲁姆分类法

引言

    生成文本人工智能 (AI) 工具(例如 ChatGPT)在回答问题和生成内容方面越来越受欢迎。这些工具使用深度学习算法,可以通过从大量文本数据中学习来生成类似人类的问题答案。它们在回答编程问题方面也表现出色,使其成为寻求快速答案的学生的理想资源。然而,人们担心这些工具对学生学习的潜在负面影响以及教育工作者在评估学生的理解和知识方面面临的挑战。过度依赖 AI 工具进行评估会导致学生发展出较差的批判性思维技能,并且无法将所学知识应用到其他环境中。此外,当广泛使用 AI 工具时,教育工作者可能很难评估学生的表现。因此,开发有效的方法来帮助衡量学生的知识和技能,同时减少他们在评估过程中对此类人工智能工具的依赖至关重要。

    根据文献,布鲁姆分类法是一个被广泛接受的制定教育目标和评估学习成果的框架。该框架将认知技能分为六个级别,包括记忆、理解、应用、分析、评估和创造。在设计有效的评估工具时使用布鲁姆分类法可以帮助衡量学生理解和知识的深度。据作者所知,目前还没有研究优化最佳的布鲁姆分类法关键词,以帮助减少对人工智能工具的依赖。为了应对上述挑战,本文提出了一种进化方法来优化布鲁姆分类法关键词选择,以生成生成文本人工智能工具对回答信心较低的问题。这种方法有望鼓励学生批判性地思考,更深入地参与材料,最终改善他们的学习体验。在本文中,遗传算法 (GA) 用于进化一组染色体(解决方案),每个染色体代表多个布鲁姆分类法关键词。

    这些关键词用于使用生成文本 AI 工具生成感兴趣的问题的新版本。然后,生成文本 AI 工具在回答新问题时的置信度代表解决方案的质量。该算法通过选择、交叉和变异过程进行迭代,以在固定的代数内进化解决方案。进化过程继续最小化这种置信度值。 该算法在澳大利亚新南威尔士大学堪培拉分校教授的数据结构和表示 (DSR) 课程中的一些问题上进行了评估。结果表明,所提出的方法能够识别一组可用于生成问题的关键词,从而将 ChatGPT 回答这些问题的置信度从平均 95% 降低到 45%,甚至生成答案置信度为 0% 的问题。这种信心的降低预计会导致评估不太容易受到人工智能生成的答案的影响,最终导致更好地评估学生的理解和知识。

    需要强调的是,蛮力方法(尝试布鲁姆分类法关键词的所有组合)效率不高,因为生成文本人工智能工具可以以多种不同的方式重构问题,从而使搜索空间变得巨大。本文的其余部分组织如下。第 II-A 节概述了本文涵盖的一些人工智能工具和相关主题。第 III 节描述了拟议的方法。第 IV-B 节讨论了获得的结果。最后,第 V 节总结本文并讨论未来的工作。

概述

    本节简要概述了生成式 AI 工具、布鲁姆分类法和进化算法。A. 生成式 AI 工具最近,由于机器学习和深度学习方法的进步,由人工智能驱动的文本生成领域取得了长足的发展。这些工具已用于各种应用程序,例如自然语言处理 (NLP)、内容创建和自动交互。以下是其中一些工具的摘要。

  1. OpenAI 的 GPT-3OpenAI 设计的生成式预训练 Transformer (GPT-3) 是一种自回归语言模型,包含 1750 亿个参数。GPT-3 在生成模仿人类写作的文本、处理与翻译相关的任务以及回答各种问题方面表现出色。 GPT-3 采用的全面预训练过程允许创建与上下文相关且连贯的输出。
  2. 谷歌 AI 的 BERT Transformers 的双向编码器表示 (BERT) 是由谷歌 AI 开发的 AI 模型,旨在在自然语言理解任务中表现出色。BERT 的掩码语言模型方法允许从两个方向考虑单词上下文,从而提高问答任务的性能。
  3. 谷歌 AI 的 T5 在 T5 中,开发了一种方法,将各种 NLP 任务合并为一种基于文本的格式,其中输入和输出都表示为文本字符串。这与仅生成类标签或特定输入段的 BERT 启发式模型形成对比。利用这个面向文本的框架,相同的模型、损失函数和超参数可以用于广泛的 NLP 任务,包括机器翻译、压缩文档、回答问题和分类任务(如情绪分析)。此外,T5 可以通过训练它预测数字的文本形式而不是数值本身来定制回归任务。 由于 GPT-3 的流行度和性能,本文仅关注它。

    B. 布鲁姆分类法 布鲁姆分类法是对认知学习目标的分层分类。它为教育工作者提供了一个框架,使他们能够以系统和结构化的方式制定学习目标、设计教育材料和评估学生的进步。布鲁姆分类法包括六个层次,从基础知识到高阶思维技能。Krathwohl 介绍了布鲁姆分类法框架的修订版。新框架有两个维度:知识和认知过程。知识维度与原始分类法的子类别非常相似,而认知过程维度则修改了类别名称:记忆(以前称为知识)、理解(以前称为理解)、应用、分析、评估和创造(以前称为综合,现在是顶级类别)。下面显示了属于每个类别的一些动词。

  • 记忆:识别、回忆、检索、重现、列出、命名、定义、识别、匹配、标记、选择、概述
  • 理解:解释、总结、解释、推断、分类、比较、对比、举例说明、概括、预测、讨论
  • 应用:应用、使用、演示、说明、解释、操作、安排、草图、解决、修改、关联、选择
  • 分析:分析、区分、分类、图表、区分、辨别、推断、选择
  • 评价:评价、估价、批评、判断、证明、支持、权衡、评估、解释、争论、比较、对比、评价
  • 创造:创造、设计、发明、撰写、计划、制定、生成、假设、生产、开发、发起、安排、构造

    C. 进化算法 进化算法 (EA) 通过模仿自然进化过程被广泛用于解决复杂问题。有多种不同的进化算法,包括遗传算法 (GA)、差分进化 (DE)、进化策略 (ES) 和进化规划 (EP)。虽然这些进化算法有一些共同的步骤,但它们在这些步骤的顺序以及它们如何创建一组初始的可能解决方案(种群)方面有所不同。每个可能的解决方案都可以用不同的格式表示,例如实数、整数或字符串。自然选择的理念确保最佳解决方案更有可能影响后代。

    为了创建新的解决方案,进化算法使用两个主要过程,称为重组(交叉)和突变。重组将选定的解决方案结合起来以产生新的解决方案,而突变会对单个解决方案进行微小的更改以保持多样性。这些新解决方案可能会与其父级竞争,最好的解决方案将被选中以形成新的种群,或者所有新解决方案都可能被选中,保留以前种群中的一些最佳解决方案。
重复这些步骤,直到找到令人满意的解决方案或满足某些停止条件。通过使用这种自然启发的方法,EA 提供了一种强大的方法来解决各个领域的复杂问题。

    III. 建议的方法本节介绍建议的框架及其组件。A. 通用框架如算法 1 中所述,建议的方法首先生成 p 个解决方案(也称为染色体),每个解决方案由 n 个从布鲁姆分类法中随机选择的关键字组成。为了优化算法中使用的关键字数量,我们解决方案,将空词添加到列表中,这意味着每个染色体可以有 i 个关键字,其中 i ∈ 1, 2, …, n。随后,计算每个染色体的质量,如第 III-B 节所述。为了最小化 ChatGPT 生成的答案的置信度得分,解决方案通过选择、交叉和突变运算符进行进化,如第 III-C、III-D 和 III-E 节所述。 然后根据适应度评估通过这些遗传运算符创建的后代解决方案,并为下一代选择,种群中的最佳解决方案始终存活到下一代(这一过程称为精英主义)。进化过程持续到达到最大代数,目标是使用布鲁姆分类法作为指导,为原始问题生成高质量的解决方案。

在这里插入图片描述

    B. 适应度评估 为了评估每个解决方案的质量,请执行以下步骤:

  • 使用 OpenAI 的 GPT-3 模型 1 生成一个包含染色体中关键词的问题。这是通过要求模型“重新措辞这个问题以使用染色体中的关键词”来实现的。
  • 使用 OpenAI 的 GPT-3 模型来回答新生成的问题,通过询问“生成的问题的答案是什么?”
  • 使用 OpenAI 的 GPT-3 模型为生成的答案提供从 0 到 1 的置信度分数,通过询问“给我一个 0-1 之间的答案置信度分数。只需写数字,不要写任何文字。”最终置信度分数表示基于工具与训练数据中的模式的匹配程度,对其响应准确性的可能性的估计。因此,该置信度得分被用作算法旨在最小化的染色体的适应度值。

    C. 选择 使用锦标赛选择,即从种群中随机选择两个个体。然后根据其适应度值将获胜者复制到交配池中。该过程持续到将 p 个解决方案添加到交配池中。 D. 交叉 对于交配池中的每个染色体,都会生成另一个解决方案。在此过程中,对于染色体中的每个基因位置,使用 cr = 0.5 的概率来决定是从该染色体中获取基因还是从交配池中随机选择的另一个亲本中获取基因,同时记住单个染色体中不能存在重复的基因。 E. 突变 为了保持多样性,交叉过程中生成的每个解决方案都会发生突变过程。对于每个基因,使用 mr 的概率来决定是从交叉过程生成的染色体中获取基因还是从布鲁姆分类学关键词中随机选择基因。

实验结果

    本节讨论了本研究的结果和分析。 A. 实验设置 为了评估所提出方法的有效性,进行了一系列实验。使用了一组从新南威尔士大学堪培拉分校的 DSR 考试中抽取的问题。这些问题可以在附录中找到。此外,选择了以下布鲁姆分类法关键词,因为它们适合编程课程。 在研究论文中,用作输入的布鲁姆分类法关键词如下:

  • 知识:定义、描述、识别、列出、回忆、识别、陈述
  • 理解:分类、解释、解释、总结、翻译
  • 应用:应用、演示、实施、使用
  • 分析:分析、比较、对比、区分、检查、测试
  • 评估:评估、评价、判断
  • 创造:设计、开发、计划

    这些关键词代表各种认知水平和技能,从基本知识回忆到分析、评估和创造等高阶思维技能。这些词也与 DSR 编程课程相符。值得注意的是,该算法足够灵活,可以接受更多的单词。该算法的其他参数为 p = 20、n = 3、突变率 (mr) = 0.1、交叉率 (Cr) = 0.5、最大代数 (gmax) = 10 和精英规模 = 1。该算法对每个问题运行三次。此外,OpenAI 引擎使用的配置是引擎:text-davinci-003、温度:τ = 0.7、停止标记:无和响应数:r = 1。值得一提的是,最大染色体大小设置为 3,以避免创建过于复杂的问题。此外,由于 OpenAI 每月允许的使用量有限(120 美元),因此运行和代数很少。但是,未来将努力缓解这种情况。

    B. 结果与讨论如前所述,该算法的主要目标是找到最佳的关键字集来生成问题,以降低 GPT-3 回答这些问题的信心。较低的置信度得分表示性能提高。结果如表 I 所示,其中说明了优化前后 GPT-3 的置信度得分,以及为每个问题找到的最佳染色体。通过分析结果,很明显,所提出的算法成功降低了 ChatGPT 对数据集中所有问题的置信度得分。这证明了该算法在实现其主要目标方面的有效性。例如,问题 1 (Q1) 的置信度得分从 0.9 降低到 0.8。同样,Q2 的置信度得分从 0.95 显着下降到 0.5,表明算法的性能显着提高。

    最显着的结果是 Q3,其中算法设法完全消除了模型对其答案的信心,将分数从 0.85 降低到 0。这表明该算法在引导 ChatGPT 对这个特定问题产生更多不确定的答案方面非常有效。Q5 也发生了同样的情况。其余问题(Q4、Q6-Q8)在优化后也显示出置信度得分下降的一致趋势,对于其中一些问题,算法设法找到了多个最优解决方案。除了置信度得分下降之外,还分析了每个问题的最佳布鲁姆分类法关键词。对于 Q1,算法找到的最佳染色体包括关键词“解释”、“对比”和“测试”。这些关键词似乎非常适合这个问题,因为它们抓住了理解问题和分析所提供信息所涉及的潜在认知过程的本质。

    对于 Q2,算法找到了多个最优解决方案,包括“描述”、“演示”、“陈述”、“实施”、“分析”、“回忆”、“评估”和“解释”等关键词。这些关键词涵盖了一系列认知过程,从基本的回忆到更高层次的评估和解释,这表明该算法能够识别多种关键词组合,从而有效降低 ChatGPT 对其响应的信心。对于 Q3,算法选择了关键词“描述”、“列表”和“检查”。这些关键词强调需要提供详细信息并对问题进行彻底检查,这可能促使 ChatGPT 完全失去了对这个问题答案的信心。对于 Q5,关键词(“检查”、“对比”和“评估”)来自高级(分析和评估)类别。

    对于关于编写 Java 方法的 Q4,算法选择了两个词([分析和设计] 或 [开发和区分]),一个来自布鲁姆 4 级,另一个来自布鲁姆 6 级。这一发现可能有助于教育工作者在编程作业中构建问题。其余问题(Q6-Q8)的最佳染色体也包含布鲁姆分类法关键词的组合。对于 Q6,最佳单词来自 3-5 级,而 Q7 包含 1 级和 5 级的单词。

    C. 验证步骤此步骤的目的是衡量 GPT-3 对新生成的问题生成的答案的正确性。作为课程召集人,我评估了每个新生成的最佳问题的答案,并总结了以下分析:

  • Q1:虽然该工具仍然具有很高的置信度值,但答案是不正确的,因为 AI 工具为给定场景选择了错误的 Java 集合。
  • Q2:答案混杂,即有些是正确的(O(n)),有些是错误的(O(n 2 ))。
  • Q3:答案要么是错误的,要么是不完整的。该模型提供了一个通用的答案,而没有完全解决问题。
  • Q4:答案是错误的,因为它没有设计或分析代码——它只是编写代码,大约 90% 是正确的。
  • Q5:答案不正确,因为AI工具提供的步骤不完整,最终数组[19,8,41,72,50,60]不正确。
  • Q6:答案部分正确,但并未完全解决问题。
  • Q7:答案不正确,提供的信息非常笼统,有些不准确。
  • Q8:答案很好但不完整,因为它没有完全解决问题的所有方面。

    总之,AI模型很难为新生成的问题提供准确而完整的答案。该分析突出了模型的局限性,并强调了使用跨越多个认知水平的不同关键字组合的重要性,以有效减少对AI生成的答案的依赖。

在这里插入图片描述

结论和未来工作

    总之,本研究提出了一种进化算法,旨在确定最佳的布鲁姆分类法关键字集,以生成AI工具(例如ChatGPT)对回答信心较低的编程问题。分析重点关注模型在解决问题跨越布鲁姆分类学定义的多个认知水平,从而凸显了人工智能模型在提供准确和完整答案方面的局限性。结果表明,从不同认知水平精心选择关键词可以显著挑战人工智能模型的能力。此外,优化算法被证明能有效降低 ChatGPT 的置信度得分,这表明在问题设计中加入不同的关键词可以进一步影响人工智能模型的性能。

    这项研究强调了为教育工作者提供必要知识和工具的重要性,以设计问题,不仅可以评估学生的理解,还可以最大限度地减少他们对人工智能生成的答案的依赖。通过理解 ChatGPT 等人工智能模型的局限性并策略性地设计问题,教育工作者可以促进学生积极参与学习过程,促进学生批判性思维和解决问题的能力的发展。总的来说,这项研究为人工智能在教育中的应用知识体系的不断增长做出了贡献,并为教育工作者和人工智能研究人员提供了宝贵的见解。

    在未来的研究中,我计划增加优化算法的生成次数和运行次数,以提高生成问题的质量,并进一步降低 ChatGPT 的置信度得分。缓解 OpenAI API 有限的月度使用量和成本问题也至关重要,因为它可能会影响该方法的可扩展性。此外,我的目标是扩大分析范围,以涵盖更多问题并涵盖更广泛的主题和课程。最后,可以通过考虑工具生成的解决方案的不确定性来改进用于评估解决方案的目标函数

  • 14
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
针对过分分布的普遍化:一项调查 "towards out of distribution generalization: a survey"是一项对过分分布普遍化现象的研究。该研究关注如何处理机器学习中的模型在训练过程中未曾遇到的情况下的泛化能力。 当前,机器学习中的模型往往在面对与训练数据不同的情况时出现问题。这些情况被称为"分布外"或"过分分布"。过分分布问题在现实世界的应用中非常普遍,例如在医学影像诊断中,模型在对未见过的病例进行预测时可能出现错误。 为了改善过分分布问题,该调查着重研究了几种处理方法。首先,一种方法是使用生成对抗网络(GAN)。GAN可以通过学习未见过的数据分布来生成合成样本,从而提高模型的泛化性能。其次,该调查还介绍了自监督学习和深度对比学习等技术。这些方法通过引入自动生成标签或学习新的特征表示来增强模型的泛化能力。 此外,该调查提到了一些用于评估模型在过分分布上泛化能力的评估指标。例如,置信度和不确定性度量可以帮助评估模型对于不同类别或未知样本的预测是否可信。同时,模型的置换不变性和鲁棒性也是评估模型泛化能力的重要因素。 总结来说,这项调查对于解决过分分布普遍化问题提供了一些有益的方法和指导。通过使用生成对抗网络、自监督学习和深度对比学习技术,以及评估模型的不确定性和鲁棒性,我们可以提高模型在未曾遇到的情况下的泛化能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值