利用 LLM 进行课程设计:使用 GPT-4 支持学习目标的创作

题目

利用 LLM 进行课程设计:使用 GPT-4 支持学习目标的创作

在这里插入图片描述

论文地址:https://arxiv.org/abs/2306.17459

摘要

    我们评估了生成式预训练转换器 (GPT-4) 在以实践为导向的大学人工智能课程背景下自动生成高质量学习目标 (LO) 的能力。关于这项新兴教育技术的机会(例如内容生成、解释)和风险(例如作弊)的讨论愈演愈烈,但迄今为止,尚未有研究模型在支持课程设计和编写 LO 方面的能力。LO 阐明了学习者通过参与课程想要获得的知识和技能。为了有效,LO 必须关注学生想要实现的目标、关注特定的认知过程,并且是可衡量的。因此,编写高质量的 LO 是一项具有挑战性且耗时(即昂贵)的工作。我们评估了 127 个 LO,这些 LO 是根据提交给 GPT-4 的精心设计的提示(有关编写高质量 LO 的详细指南)自动生成的,用于 AI 从业者课程的概念模块和项目。我们分析了生成的 LO 是否遵循某些最佳实践,例如从布鲁姆分类法中的动作动词开始,以及预期的复杂程度。我们的分析表明,生成的 LO 是合理的、表达正确的(例如,从动作动词开始),并且它们主要在布鲁姆分类法的适当级别上运行,尊重概念模块(较低级别)和项目(较高级别)的不同性质。希望利用最先进的生成模型来支持其课程和课程设计工作的教师和课程设计者可以利用我们的结果。

关键词 GPT-4、大型语言模型、LLM、学习目标、自动生成、课程开发、课程设计自动化、自动内容生成

简介

    学习目标 (LO) 是课程内容设计的蓝图。它们为教师提供了内容策划、教学和评估策略的框架,并使学习者能够反思和规划自己对课程知识的学习和技能。LO、教学策略和评估之间的协调是实现内部一致的学习体验的必要先决条件。当这三个组成部分不一致时,学习者可能会觉得考试没有评估课堂上所学的内容,或者教师可能会注意到学生在没有掌握所需水平的材料的情况下获得了及格分数。因此,质量差或缺失的LO会对学习体验产生负面影响。创建有效的LO对教师来说可能具有挑战性且耗时,需要丰富的教学设计知识和经验。布鲁姆提出了一种分类法,将LO分为六个级别(记忆、理解、应用、分析、评估和创造)。这种分类法有助于教育工作者阐明关注具体行动和行为并针对不同层次认知过程的LO。为了让LO指导评估的选择,它们必须是可衡量的,即应该能够评估学习者是否达到了预期目标。由于编写高质量 LO 的复杂性,教师通常会放弃这项任务,而去完成更紧迫的任务,例如编写课程内容或教学。

    此外,教师可能对他们希望学生在课程结束时实现的学习目标有一般概念。然而,这些概念可能不符合明确定义和可衡量的学习目标的标准,这些学习目标侧重于学习者将取得的成就。为了解决这个问题,我们的目标是开发一种方法,生成高质量的学习目标并简化目标设定过程。在我们的初步实验中,我们研究了利用语言模型 (LLM) 生成有效学习目标的潜力。这一探索是未来解决方案的垫脚石,这些解决方案涉及改进和增强教师最初提供的学习目标。

    大型语言模型 (LLM) 是经过大量文本数据预训练的复杂 AI 模型,可以生成人类级别的高质量文本。在适当的提示下,LLM 可能会创建高质量的 LO,减轻教师的负担。在本研究中,我们探索了最先进的 LLM(GPT-4)支持这项任务的潜力。我们假设,一个提示良好的 LLM 可以更有效地生成候选 LO,从而节省教师的时间。

    为了研究 GPT-4 在关于将 AI 实际集成到应用程序中的软件开发课程背景下有效生成高质量 LO 的能力,我们分析了以下研究问题:RQ1:生成的 LO 是否合理,即清晰、语法正确的陈述,解决相关主题?RQ2:LO 是否以描述可测量行为的适当动作动词开头?RQ3:概念模块和项目相关的 LO 是否针对布鲁姆分类法适当级别的认知过程?据我们所知,这是第一项提出和评估自动生成 LO 来驱动课程设计过程的研究,而不是从现有的课程材料中生成 LO。

相关工作

    一些研究认为,LLM 可以在教学中发挥多种作用,包括评估生成、个性化反馈系统、生成课程计划以及询问有关教授某一科目最佳方式的问题。虽然已经在 LLM 的应用和课程内容生成方面做了大量工作,但尚未证明 LLM 能够生成课程指导的 LO。因此,我们的重点是利用 LLM 的能力来生成课程指导的 LO。Tran 等人使用 IBM Watson 根据从课程材料文档中提取的关键短语与布鲁姆分类法中的动作动词配对,自动生成 LO。在这项工作中,我们使用最先进的 LLM (GPT-4) 生成 LO。虽然中提出的系统采用了与我们类似的 LO 定义,但预期用途不同。我们在课程材料之前生成 LO,以潜在地指导内容生成过程。中的系统假设课程材料已经存在,并从该集合中生成 LO。

    利用 LLM 生成课程材料的其他工作包括多项选择题 (MCQ) 生成,例如中的问答干扰管道。Lu 等人利用 LLM 有效地生成阅读测验,证实了该系统在 7 所不同大学的 11 名教师的人工评估中的有效性。Adams 评论了将布鲁姆分类法直接应用于开发 LO。通过包括与分类法不同级别相关的动作动词,鼓励教育工作者思考学生在课程结束时应该能够做什么。此外,的作者通过训练多层感知器 (MLP) 来生成 LO,以了解哪个布鲁姆分类法动作动词最适合从课程材料文档集合中提取的每个关键短语。在这项工作中,评估主要侧重于验证生成的学习目标是否以布鲁姆分类法适当级别的动作动词开头。

    在计算机教育环境中,LLM 已被证明能够非常有效地为入门级程序员生成代码和代码解释。据观察,这种解释甚至比课堂上学生对同一代码的解释更胜一筹。Denny 等人发现,结构良好的提示可以为许多编程练习提供正确的解决方案;Savelka 等人后来证实了这一观察结果。Piccolo 等人证明,LLM 可以在入门级生物信息学课程中执行大多数入门级编程任务。然而,Savelka 等人和 Wermelinger指出,LLM 在处理入门级编程课程的评估方面存在一些局限性。 Phung 等人介绍了一种利用 LLM 提供学生代码语法错误精确反馈的系统。这种反馈解释远远超出了逐行描述代码的范围。Sarsa 等人发现这种解释对学生学习特别有价值。MacNeil 等人证明,可以在多个不同的抽象层次上提供对生成代码的解释。在不久的将来,我们有理由期待 LLM 能够促进类似于课堂上发生的师生交流,这对学生的学习非常有价值。

实验

    GPT 因其在理解和生成自然语言文本方面的显著进步而广受欢迎。它在各个领域都表现出色,包括代码生成、软件工程、解决 AI 任务和数据增强,展示了其领域不变的能力。在教育方面,Malinka 等人进行的一项研究专门调查了 GPT 模型的一个变体 ChatGPT 对高等教育的影响,重点是计算机编程学科。作者提供了证据,强调了 ChatGPT 在管理编程作业、考试和家庭作业任务方面的有效性。 在前辈成功的基础上,GPT-4 代表了语言建模技术的重大飞跃 [26]。因此,在生成课程大纲的过程中,我们使用了 GPT-4 模型(gpt-4)。截至撰写本文时,GPT-4 是 OpenAI 迄今为止发布的最先进的模型。该模型专注于用户与系统(即助手)之间的对话。

    我们将模型的温度设置为 0.7,这是默认值。温度越高,输出越有创意,但也可能不那么真实。当温度接近 0.0 时,模型变得确定性并且可以重复。我们将 max_tokens 设置为 2,000 个 token(一个 token 大致对应一个单词)。此参数控制完成(即输出)的最大长度。请注意,GPT-4 的总 token 长度限制为 8,192 个 token,包括提示和完成。2我们将 top_p 设置为 1(默认值)。此参数与温度有关,也会影响输出的创造性。我们将 frequency_penalty 设置为 0,通过确保不对重复应用惩罚来允许重复。最后,我们将 presence_penalty 设置为 0,确保不对输出中多次出现的 token 应用惩罚。

    为了生成 LO,我们使用图 2 中所示的系统提示。系统提示引导 GPT-4 模型朝着所需的行为发展。提示包含有关如何构建 LO 以及需要哪些属性的简要指南。这些指导方针来自各种大学的课程设计材料。这些指导方针指导系统为概念模块和项目生成 LO。LO 应该以描述行为的动作动词开头,说明执行行为的条件以及学习者应达到的掌握程度。提示还提供了许多示例 LO。这些可以与关注布鲁姆分类法的两个较低级别的概念模块相关,例如:从组织、文化和技术角度定义 DevOps。

您是一个专注于编写学习目标的课程开发专家系统。学习目标是简短、清晰的陈述,描述教学的期望学习成果。[601 个字符…] 学习目标应使用动作动词。学习目标应该是可衡量的。
一个结构良好的学习目标包含三个部分 [392 个字符…] 1. 行为行为是学生要完成的实际工作,由表示可观察和可衡量行为的动作动词指定。
[2,497 个字符…] 2. 条件这是一个描述在何种条件下执行定义行为的陈述。[117 个字符…] 3. 程度这是一个指定学生必须如何表现行为的陈述 [171 个字符…] 概念性学习目标侧重于学生的知识和理解(即布鲁姆分类法的前两个级别)。
[18 个示例 LO(1,540 个字符)…] 项目 LO 侧重于学生的技能和行为(即布鲁姆分类法的较高级别)。
[12 个示例 LO(1,261 个字符)…] 以下是创建有效学习目标需要满足的一些标准:1. LO 应以学生为中心。[114 个字符…] 2. LO 应关注特定的认知过程。[530 个字符…] 3. LO 应使用动作动词。
4. LO 应可衡量 [105 个字符…] 用户将向您提供课程名称、课程目标的简要说明、模块名称以及要开发的 LO 类型。基于这些信息,您可以回复一份精心设计的有效 LO 列表(5-10 项)。

图 2:系统提示。该图显示了系统提示的基本元素,这些元素可指导模型生成高质量的 LO。灰色注释用于替代提示中无法放入图中的大量部分

    项目中的 LO 专注于布鲁姆分类法较高级别的动作动词所描述的行为,例如:为 Node.JS 应用程序设计和实现持续集成和持续交付。提示强调了概念模块和项目相关 LO 之间的差异。因此,给定相同的主题,概念模块的 LO 预计会与为项目生成的 LO 有很大不同,因为它们关注的是布鲁姆分类法的不同层次。

    正在设计的特定课程(即 AI 从业者)的背景通过用户消息提供给 GPT-4。本工作中使用的用户消息的完整模板如图 3 所示。它提供了课程名称、高级课程目标的简要描述、模块名称的占位符(例如,“生成模型”或“云中的 AI/ML”)和模块类型(即“概念模块”或“项目”)。要为每个概念模块和每个项目生成 LO,需要使用单独的消息并相应地填写占位符。动态构造的提示,即系统提示和用户消息,使用 openai Python 库分别提交给 OpenAI 的 GPT-4 API。我们从 GPT-4 响应中提取了生成的 LO,并对其进行了分析,以回答三个研究问题。为了回答 RQ2,我们使用一个简单的正则表达式从每个学习目标中提取动作动词。为了回答 RQ3,我们使用自动方法和人工注释评估了生成的 LO。我们向 3 名计算机科学研究生展示了 127 个 LO,并要求他们将其分类为布鲁姆分类法。其中,101 个 LO 由所有三个注释者注释。我们还使用 [27] 中提到的方法将生成的 LO 自动分类到布鲁姆分类法的各个级别。他们使用来自 5,558 门大学课程的 21,380 个 LO 数据集为每个布鲁姆分类法类别训练了一个二元分类器。我们使用相同的模型来预测生成的 LO 的布鲁姆分类法级别。

课程名称:AI 从业者 课程目标:在本课程中,学习者通过完成专注于开发 AI/ML 支持系统的项目,获得解决实际问题的实践经验。我们的目标是让学生培养成为基于 AI/ML 的系统的高级开发人员所需的技能。具体来说,学生将接触现实世界的数据和场景,以学习如何:- 将不同类型的 AI/ML 系统集成到他们的应用程序中,识别它们的能力和局限性。

  • 解释数据质量、数量和代表性对 AI/ML 系统性能的影响。
  • 检查、验证和批判性评估 AI/ML 系统的输出。
  • 通过云 API 或本地运行的库使用来自不同领域的 AI/ML 组件,例如语言技术或计算机视觉,包括最先进的生成模型。
  • 讨论不同计算设备和环境在部署人工智能系统方面的优缺点。
    通过这个过程,我们希望我们的学生成为成熟、独立、坚韧的问题解决者,能够克服挑战并不断学习。
    模块名称:{{module}} LOs 类型:{{module_type}} 预期输出:1. LO1 的文本。2. LO2 的文本。

图 3:用户消息。该图显示了用户消息模板,指定要生成的 LO 的上下文。灰色橙色标记被替换为模块特定信息。

     结果图 4 显示,概念模块的 LO 大量使用少量动作动词,例如“描述”、“讨论”、“解释”、“识别”和“定义”。这是意料之中的,因为这些动词面向概念学习。项目的 LO 使用更多样化的动作动词。示例包括“实施”、“优化”、“开发”或“利用”。这些动词似乎也很合理,因为它们关注的是活动和技能,而不是概念知识。

    图 5 报告了使用中提出的分类器,按布鲁姆分类法分类的概念模块和项目中的 LO 分布情况。为概念模块生成的 LO 主要属于“理解”级别,而为项目生成的 LO 分布在“应用”、“分析”、“评估”和“创建”级别。这是意料之中的。图 6 显示了类似的分布,其中我们使用由每个人工注释者分配的布鲁姆分类法级别而不是基于 BERT 的分类器。请注意,此图中的计数是标准化的,因为每个 LO 在人工注释期间都被注释了三次。分布略有不同,但我们仍然可以观察到概念模块的 LO 主要使用布鲁姆分类法较低级别的动作动词,而项目的 LO 使用较高级别的动作动词。

在这里插入图片描述

讨论

    RQ1:生成的 LO 是否合理?总体而言,LO 在很大程度上是合理的。它们描述了与相关主题相关的关键子概念,并且主要关注一两个单独的认知过程,例如:解释计算机视觉中使用的关键概念和技术,例如图像处理、特征提取和对象识别。GPT-4 生成带有动作动词的 LO,例如概念模块的“描述”、“解释”和“讨论”,以及基于项目的材料的“实施”、“评估”和“开发”。虽然 LO 是合理的,但有时缺乏特定的重点。例如,一个这样的生成 LO 是“使用 Python 库实现一个基本的 AI/ML 模型来解决一个简单的分类或回归问题。”虽然这是可以衡量的,但“Python 库”一词太宽泛了,如果更集中一点会更好(例如,“scikit-learn”)。这个问题可能可以通过进一步的快速调整来解决。
在这里插入图片描述

    RQ2:LO 是否以适当的动作动词开头?所有 LO 都以动作动词开头。概念模块和项目的 LO 中动作动词的分布符合预期。诸如“描述”和“解释”之类的动作动词应与通常侧重于陈述性知识的概念材料相关联。而诸如“实施”和“开发”之类的动作动词应与面向程序性知识的项目相关联。我们发现一些生成的 LO(图 4)使用的动作动词未包含在通过提示提供给模型的大量示例动词列表中。具体来说,这些是“优化”、“预处理”、“探索”、“文档”、“实施”、“利用”和“处理”。其中,只有“利用”和“实施”出现在提示中提到的示例中。在 127 个 LO 中,有 26 个 LO 以示例列表中未包含的动作动词开头:其中 25 个用于项目,一个用于概念模块。此外,有 13 个 LO 带有提示中未提供的动作动词。

    此外,有 11 个生成的 LO 使用多个动作动词,例如“使用适当的指标评估计算机视觉模型的性能并制定策略以提高其准确性和可靠性”。 这些可能是单独的 LO(例如,“使用适当的指标评估计算机视觉模型的性能。”和“制定策略以提高计算机视觉模型的准确性和可靠性”)。

    RQ3:LO 是否针对布鲁姆分类法适当级别的认知过程? 应用第 3.2 节中描述的 BERT 分类器的结果表明,GPT-4 模型生成的 LO 在很大程度上在布鲁姆分类法的预期级别上运行(图 5)。 概念模块更侧重于陈述性知识,LO 主要使用布鲁姆分类法较低两个级别(记忆和理解)的动作动词。 项目侧重于程序性知识,LO 主要使用较高四个级别(应用、分析、评估和创建)的动作动词。基于 BERT 分类器,生成的 LO 似乎面向适当类型的认知过程。

    中提出的分类器可能存在一些局限性。我们注意到,生成的 LO 中有两个未分配给任何布鲁姆分类法级别,而五个 LO 被分配了多个类别。请注意,这些问题只涉及生成的 LO 中相对较小的一部分。

    我们将生成的 LO 呈现给人类注释者,以验证基于 BERT 的分类。如图 5 所示,大多数为概念模块生成的 LO 被归类为针对布鲁姆分类法的理解和记忆级别,大多数项目 LO 被归类为不理解或不记忆。在 6 中可以观察到同样的分布,尽管人类将概念 LO 归类为“记住”而不是“理解”的频率更高。在进行人工注释时,我们使用了 Cohen’s 𝐾 来检查评分者之间的一致性。评分者将 LO 归入布鲁姆分类法的六个单独级别时的平均一致性为 0.31,相当于公平一致性。通过将 BERT 和人工分类映射到相应的 LO 类别,我们能够观察到多数投票注释与 BERT 分类之间的一致性0.62,表明人类和 BERT 将 LO 分类为“记忆”和“理解”,或布鲁姆分类法的“应用”、“分析”、“评估”和“创建”级别,这两者之间存在很大一致性。

对教育实践的启示

    自动生成 LO 可以大大减轻教育工作者的工作量,使他们能够更加专注于教学和学生互动。自动化可以提高 LO 的质量。降低编写 LO 的成本可以根据每个学生的个人优势、劣势和进步为他们提供个性化的 LO。另一方面,过度依赖自动化系统可能会导致教学细微差别和适应性的丧失。标准化可能会扼杀教学方法的创造力和创新。因此,在将此类系统整合到教学实践中时应谨慎处理,确保它们成为一种辅助工具,而不是教育者专业知识的替代品。

局限性

    LO 推动了整个课程开发过程。编写 LO 时的错误可能会引发连锁反应并滚雪球般发展成更大的问题,表现为低质量的课程内容。LLM 是一项相对较新的技术,教育工作者和专家可能会对使用 LLM 生成 LO 的可靠性和有效性持怀疑或抵制态度。解决这些问题并获得认可对于广泛采用所提出的方法至关重要。此外,需要对生成的 LO 进行人工验证。虽然 LLM 可以协助初始生成过程,但人类的专业知识和判断力对于确保生成的 LO 的准确性、相关性和适当性至关重要。一些教师或机构认为使用 GPT 是不道德的,因为它对受版权保护的材料进行培训。因此,其产品可能无法在有政策禁止此类使用的机构中使用。

结论和未来工作

    本文探讨了在面向实践的大学 AI 课程背景下使用 LLM 生成 LO。先前的工作证明了 LLM 在教育背景下的各种任务中的有效性,甚至在生成课程内容的各种元素方面也是如此。这项工作强调了 LLM 生成 LO 以支持课程发展的潜力。我们评估了 GPT-4 在这一任务上的有效性。我们发现生成的 LO 是合理的、表达得当的(例如,以动作动词开头),并且它们在很大程度上在布鲁姆分类法的适当级别上运行,尊重概念模块(较低级别)和项目(较高级别)的不同性质。希望利用最先进的生成模型来支持其课程和课程设计工作的教师和课程设计者可以利用这些发现。在未来的工作中,我们计划进一步评估生成的 LO,特别是在 LO 可衡量方面。这可能包括为现有课程生成 LO 和现有的人工创建的 LO,以便对两者进行比较。此外,GPT-4 还可用于为生成的 LO 制定评估策略。

  • 7
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值