论文翻译：ChatGPT for good? On opportunities and challenges of large language models for education Author

最新推荐文章于 2024-09-08 17:38:39 发布

CSPhD-winston-杨帆

最新推荐文章于 2024-09-08 17:38:39 发布

阅读量857

点赞数 24

分类专栏：智慧教育论文翻译文章标签： chatgpt 语言模型人工智能

本文链接：https://blog.csdn.net/whiffeyf/article/details/140865867

版权

论文翻译同时被 2 个专栏收录

65 篇文章 0 订阅

订阅专栏

智慧教育

22 篇文章 0 订阅

订阅专栏

高引用论文：ChatGPT for good? On opportunities and challenges of large language models for education Author links open overlay panel
https://www.sciencedirect.com/science/article/pii/S1041608023000195

ChatGPT for good？大型语言模型在教育中的机遇与挑战

摘要

大型语言模型代表了人工智能领域的一项重要进步。其底层技术是进一步创新的关键，尽管在社区和地区内存在批评观点甚至禁令，但大型语言模型将持续存在。这篇评论文章介绍了大型语言模型在教育应用中的潜在好处和挑战，从学生和教师的角度出发。我们简要讨论了大型语言模型及其应用的现状。然后，我们强调了这些模型如何用于创建教育内容，提高学生的参与度和互动性，以及个性化学习体验。关于挑战，我们认为教育中的大型语言模型需要教师和学习者发展一套必要的能力与素养，以理解技术及其限制和这些系统的意外脆弱性。此外，需要在教育系统内制定明确策略，以及具有强烈批判性思维和事实核查策略的清晰教学方法，以整合并充分利用大型语言模型在学习和教学课程中的优势。其他挑战，如输出的潜在偏见、持续的人类监督需求和滥用潜力，并非仅在教育中应用人工智能时独有。但我们相信，如果合理处理，这些挑战可以提供洞见和机会，在教育场景中让学生尽早了解潜在的社会偏见、批判性和人工智能应用的风险。我们以如何解决这些挑战的建议结束，并确保这些模型在教育中以负责任和道德的方式使用。

关键词
大型语言模型人工智能教育教育技术

1. 引言

大型语言模型，如生成式预训练变换器（GPT-3）（Floridi & Chiriatti, 2020），近年来在自然语言处理（NLP）方面取得了显著进展。这些模型在大量文本数据上进行训练，能够生成类人文本、回答问题，并以高准确度完成其他与语言相关的任务。

该领域的一个关键发展是变换器架构（Devlin et al., 2018, Tay et al., 2022）及其背后的注意力机制（Vaswani et al., 2017），这极大地提高了语言模型处理自然语言文本中长期依赖关系的能力。更具体地说，变换器架构，由Vaswani等人（2017）引入，使用自注意力机制来确定生成预测时输入的不同部分的相关性。这使得模型能够更好地理解句子中单词之间的关系，无论它们的位置如何。

另一个重要发展是预训练的使用，即在特定任务上微调之前，先在大型数据集上训练语言模型。这已被证明是一种提高在广泛语言任务上性能的有效技术（Min et al., 2021）。例如，基于变换器的双向编码器表示（简称BERT）是可以在各种NLP任务上进行微调的预训练变换器编码器模型，例如句子分类、问题回答和命名实体识别。事实上，大型语言模型的所谓少次学习能力，即高效地适应下游任务或甚至其他看似不相关的任务（例如，在迁移学习中），已经在各种自然语言任务中被观察和研究（Brown et al., 2020），例如，最近在生成合成但现实的异构表格数据的背景下（Borisov et al., 2022）。

最近的进步还包括ChatGPT（Team, 2022），它在更大的数据集上进行了训练，即来自非常大的网络语料库的文本，并在从翻译到问题回答、撰写连贯的论文和计算机程序等一系列自然语言任务上展示了最先进的性能。此外，还对这些模型在较小数据集上的微调和将迁移学习应用于新问题进行了广泛研究。这允许在较小的数据量下在特定任务上提高性能。

虽然大型语言模型近年来取得了巨大进步，但仍有许多限制需要解决。一个主要限制是缺乏可解释性，因为很难理解模型预测背后的原因。还有伦理考虑，例如对偏见和这些模型影响的担忧，例如对就业的影响，滥用风险和不当或不道德部署、完整性丧失等。总体而言，大型语言模型将继续推动自然语言处理的可能性边界。然而，在解决其限制和相关伦理考虑方面仍有大量工作要做。

1.1 学习机会

大型语言模型在教育领域的应用被认为是一个潜在的兴趣领域，因为它们提供了多样化的应用范围。通过利用这些模型，可能有机会增强各个教育层次的学习和教学体验，包括小学、中学、高等教育和专业发展。此外，由于每个人都有独特的学习偏好、能力和需求，大型语言模型提供了提供个性化和有效学习体验的独特机会。

对于小学生，大型语言模型可以帮助发展阅读和写作技能（例如，通过建议语法和句法的更正），以及写作风格和批判性思维技能。这些模型可以用来生成问题和提示，鼓励学生批判性地思考他们所阅读和写作的内容，并分析和解释呈现给他们的信息。此外，大型语言模型还可以通过提供摘要和解释复杂文本，帮助学生发展阅读理解技能，这可以使阅读和理解材料更加容易。

对于中学和高中学生，大型语言模型可以帮助学习语言和各种科目和主题的写作风格，例如数学、物理、语言和文学以及其他科目。这些模型可以用来生成练习问题和小测验，这可以帮助学生更好地理解、情境化和记忆他们正在学习的材料。此外，大型语言模型还可以通过提供解释、逐步解决方案和有趣的相关问题，帮助学生发展解决问题的技能，这可以帮助他们理解解决方案背后的推理，并发展分析性和创新性思维。

对于大学生，大型语言模型可以帮助研究和写作任务，以及发展批判性思维和解决问题的技能。这些模型可以用来生成文本的摘要和大纲，这可以帮助学生快速理解文本的主要观点，并组织他们的思想进行写作。此外，大型语言模型还可以通过提供特定主题的信息和资源，并提示未探索的方面和当前研究主题，帮助学生更好地理解和分析材料。

对于小组和远程学习，大型语言模型可以用来促进小组讨论和辩论，通过提供讨论结构、实时反馈和个性化指导，以提高学生的参与度和参与性。在协作写作活动中，多个学生共同撰写文档或项目，语言模型可以通过提供风格和编辑建议以及其他集成的协作写作功能来提供帮助。对于研究目的，这些模型可以用来扩展与已经研究的主题相关的开放性研究问题的范围，并自动将问题和主题分配给参与团队成员。对于远程辅导目的，它们可以用来自动生成问题并提供练习问题、解释和评估，这些是根据学生的知识水平量身定制的，以便他们可以按照自己的节奏学习。

为了增强残疾学习者的能力，大型语言模型可以与语音转文字或文字转语音解决方案结合使用，帮助视力受损的人。结合前面提到的小组和远程辅导机会，语言模型可以用来发展包容性的学习策略，并在适应性写作、翻译和突出显示各种格式中的重要内容等任务中提供适当的支持。然而，重要的是要注意，大型语言模型的使用应伴随着专业人士的帮助，如语言治疗师、教育工作者和其他专家，他们可以适应技术以满足学习者残疾的特定需求。

对于职业培训，大型语言模型可以帮助发展特定工作领域的语言技能。它们还可以帮助发展编程、报告撰写、项目管理、决策和解决问题等技能。例如，大型语言模型可以在特定领域的语料库（例如法律、医疗、IT）上进行微调，以生成特定领域的语言，并帮助学习者撰写技术报告、法律文件、医疗记录等。它们还可以生成问题和提示，鼓励学习者批判性地思考他们的工作，并分析和解释呈现给他们的信息。

总之，大型语言模型有潜力为各个教育阶段的学生和专业人士提供广泛的利益和机会。它们可以帮助发展阅读、写作、数学、科学和语言技能，并为学生提供个性化的练习材料、摘要和解释，这可以帮助提高学生表现并促进增强的学习体验。此外，大型语言模型还可以协助研究、写作和解决问题任务，并为职业培训提供特定领域的语言技能和其他技能。然而，如前所述，这些模型的使用应谨慎进行，因为它们也有局限性，例如缺乏可解释性和潜在的偏见、在相对简单的任务中意外脆弱性（Magazine, 2022），这些问题需要解决。

1.2 教学机会

大型语言模型，如ChatGPT，有潜力彻底改变教学并协助教学过程。下面我们仅提供一些这些模型如何使教师受益的例子：

对于个性化学习，教师可以使用大型语言模型为学生创造个性化的学习体验。这些模型可以分析学生的写作和回应，并提供定制的反馈，并建议与学生特定学习需求相符的材料。这种支持可以节省教师在创建个性化材料和反馈方面的时间和精力，并允许他们专注于教学的其他方面，例如创建吸引人和互动的课程。

对于课程计划，大型语言模型也可以协助教师创建（包容性的）课程计划和活动。教师可以向模型输入他们想要构建课程的文档语料库。输出可以是带有每个主题简短描述的课程大纲。语言模型还可以生成问题和提示，鼓励不同知识和能力水平的人参与，并引发批判性思维和解决问题。此外，它们还可以用来生成针对性和个性化的练习问题和小测验，这可以帮助确保学生掌握材料。

对于语言学习，语言课的教师可以以辅助方式使用大型语言模型，例如，突出重要短语，生成摘要和翻译，提供语法和词汇解释，建议语法或风格改进，并协助对话练习。语言模型还可以为教师提供适应性和个性化的手段，以协助学生的语言学习之旅，这可以使语言学习对学生更具吸引力和效果。

对于研究和写作，大型语言模型可以帮助大学和高中课程的教师更高效、更有效地完成研究和写作任务（例如，在研讨会作品、论文写作和对学生的反馈中）。最基本的帮助可以发生在句法层面，即识别和纠正错别字。在语义层面，大型语言模型可以用来突出（潜在的）语法不一致并建议适当和个性化的改进策略。进一步说，这些模型可以用来确定特定主题的风格改进可能性。它们还可以用来生成挑战性文本的摘要和大纲，这可以帮助教师和研究人员以有助于进一步深入理解和理解所讨论内容的方式突出文本的主要观点。

对于专业发展，大型语言模型也可以通过提供资源、摘要和新教学方法、技术和材料的解释来协助教师。这可以帮助教师跟上教育领域最新发展和技术的步伐，并有助于提高他们的教学效果。它们可以用来提高教学材料的清晰度，定位专业人士在工作中可能需要的信息或资源，以及用于需要演示和沟通技能的在职培训模块。

对于评估和评价，教师可以使用大型语言模型通过突出作品的潜在优点和弱点（例如，论文、研究论文和其他写作任务）来半自动化地评分学生的作品。这可以为与学生个别反馈相关的任务节省教师大量的时间。此外，大型语言模型也可以用来检查抄袭，这可以帮助防止作弊。因此，大型语言模型可以帮助教师识别学生在哪些领域遇到困难，这增加了对学生学习发展和挑战的更准确评估。模型提供的针对性指导可以用来帮助学生脱颖而出，并提供进一步发展的机会。

学生对与大型语言模型输出的潜在偏见、持续的人类监督需求和滥用潜力相关的AI挑战的了解并非教育所独有。事实上，这些挑战是变革性数字技术固有的。因此，我们相信，如果教师明智地处理，这些挑战可以在学习和教育场景中为学生提供洞见，让他们尽早了解潜在的社会偏见和AI应用的风险。

总之，大型语言模型有潜力从教师的角度彻底改变教学，为教师提供一系列工具和资源，可以帮助课程计划、个性化内容创作、差异化和个性化教学、评估和专业发展。总的来说，大型语言模型有潜力成为教育中的强大工具，并且有许多正在进行的研究工作正在探索其在这一领域的潜在应用。

2. 教育中语言模型的现状和应用

近年来，开发了几种大型语言模型，包括GPT（Radford et al., 2018）、BERT（Devlin et al., 2018）、XLNet（Yang et al., 2019）、T5（Raffel et al., 2020）、RoBERTa（Liu et al., 2019），以及最广泛使用的GPT-3（Floridi & Chiriatti, 2020; Scao et al., 2022）。这些模型基于变换器架构，并已在大量文本数据集上进行了预训练，以生成类似人类的文本、回答问题、协助翻译和总结，并执行许多NLP任务，只需单一的预训练和微调流程。BLOOM是这个家族的最新成员，由BigScience社区开发并作为开源项目发布，提供了一个透明训练的多语言模型，明确设计用于涵盖46种自然语言和13种编程语言（Scao et al., 2022）。这些发展标志着NLP领域的重大里程碑，并为研究和工业环境中的应用提供了巨大的机会。我们预计，NLP的未来发展，特别是大型语言模型，将带来语言模型能力的进一步改善，从而突显了探索它们在教育中潜在应用的必要性。

以下，我们提供了自2018年发布第一个大型语言模型以来，在教育中使用大型语言模型的研究工作的概述。这些研究根据它们的目标群体，即学习者或教师，进行了讨论。随着该领域的不断发展，还有许多未知的未知数尚待探索，只能通过系统和严格的实证研究和评估来识别和解决。

2.1. 针对学习者视角的研究工作

从学生的角度来看，大型语言模型可以用多种方式协助学习过程。一个例子是在教育内容的创建和设计中使用。例如，研究人员使用大型语言模型生成交互式教育材料，如测验和闪卡，这些可以用来提高学生的学习和参与度（Dijkstra et al., 2022; Gabajiwala et al., 2022）。更具体地说，在Dijkstra等人（2022）最近的一项工作中，研究人员使用GPT-3为阅读理解任务生成多项选择题和答案，并认为自动化生成测验不仅可以减轻教师手动设计测验的负担，而且最重要的是，为学生提供了一个有用的工具，让他们在学习教科书和准备考试时训练和测试他们的知识（Dijkstra et al., 2022）。

在另一项最近的研究中，GPT-3被用作教学代理，以激发儿童的好奇心并增强提问技巧（Abdelghani et al., 2022）。更具体地说，作者自动化生成了激发好奇心的提示，作为提出更多和更深入问题的动力。根据他们的结果，大型语言模型不仅有潜力显著促进激发好奇心的学习实施，而且还可以作为提高好奇心表达的有效工具（Abdelghani et al., 2022）。

在计算机教育中，MacNeil等人（2022）最近的工作利用GPT-3生成代码解释。尽管还有几个开放的研究和教学问题需要进一步探索，但这项工作已成功展示了GPT-3通过解释给定代码片段的方面来支持学习的潜力。

对于数据科学课程，Bhat等人（2022）提出了一个基于微调的GPT3模型的生成评估问题的流程，该模型基于基于文本的学习材料。生成的问题进一步通过训练的GPT-3模型自动标记和人类专家的手动审查，根据其对学习成果的有用性进行评估。作者报告说，生成的问题得到了人类专家的青睐，从而促进了在数据科学教育中使用大型语言模型的使用（Bhat et al., 2022）。

学生可以通过相互评审和评估彼此的解决方案来相互学习。当然，当给出的反馈全面且质量高时，效果最佳。例如，Jia等人（2021）展示了如何使用BERT评估同伴评估，以便学生可以学习改进他们的反馈。

在最近关于语言教育中对话式AI的综述中，作者发现在教学中有五种主要的对话式AI应用（Ji et al., 2022），最常见的是使用大型语言模型作为书面或口头形式的对话伙伴，例如，在提供语言实践机会的任务型对话中，如发音（El Shazly, 2021）。另一种应用是在学生经历外语学习焦虑（Bao, 2019）或沟通意愿较低（Tai & Chen, 2020）时为学生提供支持。在Jeon（2021）中，探讨了作为需求分析师和评估者提供反馈的应用，当小学生练习他们的词汇时。Lin和Mubarok（2021）的作者发现，由思维导图引导的聊天机器人在支持学生方面比传统AI聊天机器人更成功，因为它在语言学习期间提供了支架。

在医学教育领域的最近一项工作中，Kung等人（2022）探索了ChatGPT在美国医学执照考试中的表现。根据评估结果，ChatGPT在这项测试中的表现达到了或接近通过阈值，而无需任何领域微调。基于这些结果，作者认为大型语言模型可能是协助医学教育乃至临床决策过程的强大工具（Kung et al., 2022）。

2.2. 针对教师视角的研究工作

由于教育领域采用AI的速度仍然比其他领域慢，例如工业应用（例如，金融、电子商务、汽车）或医学，因此考虑在教育中使用大型语言模型的研究较少（Salas-Pilco et al., 2022）。最近对教育中聊天机器人的机会和挑战的综述指出，与教育中的聊天机器人相关的研究仍处于早期阶段，很少有实证研究调查有效的学习设计或学习策略的使用（Hwang & Chang, 2021）。因此，我们首先讨论教师对教育中的AI和学习分析的看法，并将这些转移到更新颖的大型语言模型领域。

从这个角度来看，一项涉及欧洲教师的试点研究表明，教师对教育中的AI持积极态度，并且有很高的动机在学校引入与AI相关的内容。总体而言，研究中的教师似乎具备基本的数字技能，但与AI相关的技能较低（Polak et al., 2022）。另一项涉及尼日利亚教师的研究表明，教师促进AI的意愿和准备情况是将基于AI的技术整合到教育中的关键先决条件（Ayanwale et al., 2022）。同样，韩国教师的研究结果表明，具有建构主义信念的教师比具有传输导向的教师更有可能整合基于教育的AI工具（Choi et al., 2023）。此外，感知到的有用性、感知到的易用性和对这些基于AI的工具的感知信任是预测教师接受度时需要考虑的决定因素。关于教师对教育中聊天机器人的态度的类似结果在Chocarro等人（2021）中报告：将AI聊天机器人视为易于使用和有用的，会导致对聊天机器人的更大接受度。至于聊天机器人的功能，聊天机器人的正式语言会导致更高的使用意图。

由于教师对教育中AI的一般使用的看法似乎与特别提到聊天机器人的态度有很多共同之处，因此通过涉及不同社区的专业知识，负责任地将AI整合到教育中至关重要（Fadel et al., 2019）。

最近从教师的角度使用大型语言模型的工作集中在自动评估学生答案、适应性反馈和教学内容的生成上。

例如，Moore等人（2022）最近的一项工作利用微调的GPT-3模型评估了化学教育学习环境中学生生成的答案（Moore et al., 2022）。作者认为，大型语言模型可能（特别是当针对特定领域进行微调时）是协助教师进行学生答案的质量和教育评估的强大工具（Moore et al., 2022）。此外，以下研究检查了用于生成自动适应性反馈的基于NLP的模型：Zhu等人（2020）检查了在高中气候活动任务的背景下，结合自动评分技术的基于AI的反馈系统。结果表明，反馈帮助学生修改了他们的科学论点。Sailer等人（2023）在教师教育的背景下使用了基于NLP的适应性反馈来诊断学生的学习困难。在他们的实验研究中，他们发现接受适应性反馈的预备教师比接受静态反馈的预备教师更能证明他们的诊断。Bernius等人（2022）使用基于NLP的模型为大型课程中的学生文本答案生成反馈，在这些课程中，评分工作量可以减少高达85%，精度高，学生感知的质量也有所提高。

大型语言模型不仅可以支持评估学生的解决方案，还可以协助自动生成练习。使用少次学习，Sarsa等人（2022）表明OpenAI Codex模型能够提供各种编程任务以及正确的解决方案、自动化测试来验证学生的解决方案，以及额外的代码解释。关于测试一般事实知识，Qu等人（2021）提出了一个框架，用于自动生成问题-答案对。这可以用于教学材料的创建，例如阅读理解任务。除了生成正确答案外，变换器模型还能够创建干扰项答案，这是生成多项选择问卷所需的（Raina & Gales, 2022; Rodriguez-Torrealba et al., 2022）。将语言模型引入数学教育，有几项工作讨论了自动生成数学文字问题的挑战（Shen et al., 2021; Wang et al., 2021; Yu et al., 2021），这结合了理解方程式和将其放入适当上下文的挑战。

最后，另一项近期的研究（Tack & Piech, 2022）调查了最先进的会话代理在教育对话中适当回复学生的能力。这项工作中使用的两种模型（Blender和GPT-3）都能够适当地回复学生，并生成了会话对话，给人们留下了这些模型理解学习者的印象（特别是Blender）。然而，当涉及到帮助学生时，它们的表现远远落后于人类（Tack & Piech, 2022），因此强调了进一步研究的必要性。

2.3 未知的未知

从教育的角度来看，当涉及到将大型语言模型成功且负责任地整合到学习和教学过程中时，仍然存在许多知识空白和不确定性。具体来说，针对特定需求定制模型、解决特定用例中的偏见、处理伦理考量和版权问题需要多学科的基于证据的研究和评估。虽然大型语言模型可以生成多项选择题、从要点生成文本，并支持学习，但很明显它们只能作为人类学习者和教育工作者的辅助工具，不能取代教师。

3. 创新教育技术的机遇

展望未来，大型语言模型有潜力显著改善教育的数字生态系统，例如基于增强现实（AR）、虚拟现实（VR）和其他相关数字体验的环境。具体来说，它们可以用来增强几个关键因素，这些因素对于用户与数字内容的沉浸式交互至关重要。例如，大型语言模型可以显著提高AR/VR系统的自然语言处理和理解能力，以实现用户和系统（例如虚拟教师或虚拟同伴）之间的有效自然交流和互动。后者已被早期确定为沉浸式教育技术的关键可用性方面，并且通常被视为改善人与AI系统之间互动的关键因素。

大型语言模型还可以用来开发更自然、更复杂的用户界面，利用它们生成针对用户提出的自然语言问题的情境化、个性化和多样化响应的能力。此外，它们回答不同领域自然语言问题的能力可以促进将不同的数字应用程序整合到一个统一的框架或应用程序中，这对于扩大教育可能性和体验的界限也至关重要。

总的来说，这些模型生成情境化自然语言文本、各种实施任务的代码（Becker et al., 2022）以及各种类型的多媒体内容（例如，与其他AI系统结合，如DALL-E（Ramesh et al., 2021））的能力，可以促进并扩展引人注目和沉浸式数字（例如AR/VR）体验的创造。从游戏化到数字环境中沉浸式学习的详细模拟，大型语言模型是关键的使能技术。然而，要充分实现这一潜力，不仅要考虑技术方面，还要考虑伦理、法律、生态和社会影响。

在下一节中，我们将简要看看与大型语言模型在教育中应用相关的风险，并提供相应的缓解策略。

4. 与大型语言模型在教育中应用相关的关键挑战和风险

4.1 版权问题

当我们训练大型语言模型来完成生成与教育相关的内容的任务——课程大纲、测验、科学论文时，模型应该在这类文本的示例上进行训练。在为新的提示生成答案时，答案可能包含在训练集中看到的完整句子甚至段落，导致版权和抄袭问题。

负责任地缓解此类问题的重要步骤可以是：
• 透明地（即数据使用的目的和政策）向原始文档的作者请求使用他们的内容来训练模型的许可
• 遵守开源内容的版权条款
• 模型生成内容的使用继承和详细条款
• 告知和提高用户对这些政策的认识。

4.2 偏见和公平性

大型语言模型可能会延续并放大社会中现有的偏见和不公平，这可能对教学和学习过程及成果产生负面影响。例如，如果模型在对某些人群有偏见的数据上进行训练，它可能产生对这些人群不公平或歧视性的结果（例如，关于少数民族或文化的地方知识可能会变得模糊）。因此，重要的是要确保用于模型训练的训练数据或用于微调下游任务的数据是多样化的，并且代表了不同人群。定期监测和测试模型在不同人群上的表现可以帮助及早识别和解决任何偏见。因此，人类在过程中的监督是不可或缺的，对于缓解偏见和大型语言模型在教育中的有益应用至关重要。

更具体地说，负责任的缓解策略将侧重于以下关键方面：
• 多样化的数据集来训练或微调模型，以确保它不会对任何特定群体有偏见
• 定期监测和评估模型的表现（对不同人群），以识别和解决可能出现的任何偏见
• 公平性和偏见校正技术，如预处理或后处理方法
• 透明度机制，使用户能够理解模型的输出，以及用于生成它的数据和假设
• 教育工作者的专业培训和资源，了解如何识别和解决模型输出中的潜在偏见和其他失败
• 用多样化、无偏见的数据不断更新模型，并由人类专家监督审查结果。

4.3 学习者可能过度依赖模型

轻松生成的信息可能对他们的批判性思维和解决问题的技能产生负面影响。这是因为模型简化了获取答案或信息的过程，这可能会放大懒惰，并抵消学习者进行自己调查和得出自己结论或解决方案的兴趣。

为了应对这个风险，重要的是要意识到大型语言模型的限制，并仅将其用作支持和增强学习的工具（Pavlik, 2023），而不是作为人类权威和其他权威来源的替代品。因此，负责任的缓解策略将侧重于以下关键方面：
• 提高对大型语言模型和AI系统一般限制和意外脆弱性的认识（即通过与模型实验来建立对其工作原理和限制的自己的理解）
• 使用语言模型生成假设和探索不同观点，而不仅仅是生成答案
• 使用其他教育资源（如书籍、文章）和其他权威来源来评估和证实模型提供的信息的事实正确性（即鼓励学习者质疑生成的内容）
• 将批判性思维和解决问题的活动纳入课程，帮助学生发展这些技能
• 纳入人类专业知识和教师来审查、验证和解释模型提供的信息。

重要的是要注意，大型语言模型的使用应该以一种补充和增强学习体验的方式整合到课程中，而不是取代它。

4.4 教师可能过度依赖模型

使用大型语言模型可以提供准确和相关的信息，但它们不能取代通过人类教学培养的创造力、批判性思维和解决问题的能力。因此，教师应该将这些模型作为教学的补充，而不是替代品。因此，减轻过度依赖大型语言模型风险的关键方面是：
• 仅将语言模型用作生成教学的补充辅助工具
• 为教师提供持续的培训和专业发展，使他们能够了解在课堂上使用语言模型的最佳实践，以激发和促进创造力和批判性思维
• 通过数字技术的帮助，将批判性思维和解决问题的活动作为课程的重要组成部分，确保学生正在发展这些技能
• 让学生参与创造性和独立的项目，让他们发展自己的想法和解决方案
• 监控和评估课堂上语言模型的使用情况，确保它们被有效使用，并不对学生学习产生负面影响
• 激励教师和学校基于大型语言模型开发（包容性、协作性和个性化）教学策略，并让学生参与解决问题的过程，例如使用模型和其他来源检索和评估与课程/作业相关的信息。

4.5 缺乏理解和专业知识

许多教育工作者和教育机构可能没有知识或专业知识来有效地将新技术整合到他们的教学中（Redecker et al., 2017）。这特别适用于将大型语言模型的使用和整合到教学实践中。教育理论早已提出了将新颖工具整合到教育实践中的方法（例如，Salomon, 1993）。与其他任何技术创新一样，将大型语言模型整合到有效的教学实践中需要了解它们的能力与局限，以及如何有效地使用它们来补充或增强特定的学习过程。

有几种方法可以解决这些挑战并应对这个风险：
• 通过调查现有的技术整合教育模型、学生的学习过程，并将它们应用到大型语言模型的背景下，以及为大型语言模型的背景特别开发新的教育理论，来研究大型语言模型在教育中的挑战
• 评估教育工作者和学生的需求，并提供基于案例的指导（例如，安全地在教育场景中道德使用大型语言模型）
• 为教育工作者和机构提供需求导向的培训和专业发展机会，以了解大型语言模型在教育中的能力和潜在用途，以及提供将它们整合到教学方法中的最佳实践
• 为教育工作者和机构提供开放教育资源（例如，教程、研究、用例等）和指导方针，以便他们获取和学习教育中使用语言模型的知识
• 激励已经在使用语言模型的教学实践中的教育工作者和机构之间的合作和社区建设（例如，专业学习社区），以便他们可以与他人分享他们的知识和经验
• 定期分析和反馈语言模型的使用情况，以确保它们有效使用，并在必要时进行调整。

4.6 难以区分模型生成和学生生成的答案

越来越难以区分文本是由机器还是人类生成的，这对教师和教育工作者构成了额外的重大挑战（Cotton et al., 2023; Elkins & Chun, 2020; Gao et al., 2022; Nassim, 2021）。因此，纽约市教育局最近禁止在学校设备和网络上使用ChatGPT（News, 2023）。

Cotton等人（2023）最近提出了几种检测由大型语言模型生成的工作的策略，特别是ChatGPT。此外，像最近发布的GPTZero（Tian, 2023）这样的工具，它使用困惑度作为衡量指标，暗示了文本撰写代理的泛化能力，预计将为检测AI参与文本写作提供额外支持。更高级的技术旨在对语言模型生成的内容进行水印标记（Gu et al., 2022; Kirchenbauer et al., 2023），例如，通过偏向内容生成，使其倾向于人类在文本段落中不太可能共同使用的条件。然而，从长远来看，我们认为开发鼓励创造性和基于证据使用大型语言模型的课程和指导将是解决这个问题的关键。因此，对这个风险的合理缓解策略应该侧重于：
• 研究透明度、解释和分析技术以及区分机器生成和人类生成文本的措施
• 激励和支持开发需要创造性和补充性使用大型语言模型的课程和指导。

4.7 培训和维护成本

大型语言模型的维护可能对学校和教育机构造成财务负担，特别是那些预算有限的机构。为了解决这一挑战，使用预训练模型和云技术，结合与机构和公司合作使用合作计划，可以作为一个起点。具体来说，对这个风险的缓解策略应该侧重于以下方面：
• 使用可以针对特定任务进行微调的预训练开源模型
• 与私人公司、研究机构以及可以提供财务支持、资源和专业知识以支持在教育中使用大型语言模型的政府和非营利组织发展和探索合作伙伴关系
• 分享成本和合作使用可扩展的（例如，云）计算服务，以低成本提供强大的计算资源
• 主要将模型用于高价值的教育任务，例如为学生提供个性化和有针对性的学习体验（即，对低价值任务分配较低的优先级）
• 研究和发展压缩、蒸馏和剪枝技术，以减少模型、数据和所需的计算资源的大小。

4.8 数据隐私和安全

在教育中使用大型语言模型引发了对数据隐私和安全的担忧，因为学生数据通常是敏感和个人的。这可能包括对数据泄露、未经授权访问学生数据以及将学生数据用于教育以外目的的担忧。

在使用大型语言模型进行教育时，减轻隐私和安全问题的特定关注领域包括：
• 开发和实施健全的数据隐私和安全政策，明确概述学生数据的收集、存储和使用，符合法规（例如，GDPR、HIPAA、FERPA）和道德标准
• 向学生及其家庭透明地说明数据收集、存储和使用的做法，在收集和使用数据之前必须得到同意
• 使用现代技术和措施保护收集的数据免遭未经授权的访问、泄露或不道德的使用（例如，匿名化数据和具有现代加密、联合、隐私保护分析等手段的安全基础设施）
• 定期审计现有的数据隐私和安全措施，以识别和解决任何潜在的漏洞或改进领域
• 制定应对计划，以快速响应和减轻任何数据泄露或未经授权访问数据的事件
• 对员工（即教育工作者和学生）进行数据隐私和安全政策、法规、道德关切和处理及报告相关风险的最佳实践的教育和意识。

4.9 可持续使用

大型语言模型的计算需求很高，这可能导致高能耗。因此，基于可再生能源的能效硬件和共享（例如，云）基础设施对于它们在教育背景下所需的环境可持续运行和扩展至关重要。

对于模型训练和更新，只应考虑以符合法规和道德方式收集和注释的数据。因此，包括政策、程序和控制措施的治理框架，以确保这些模型的适当使用，是它们成功采用的关键。

同样，对于模型长期可靠和负责任的使用，透明度、偏见缓解和持续监控是不可或缺的。

总结来说，这个风险的缓解策略将包括：
• 基于可再生能源的能效硬件和共享基础设施，以及降低培训和维护成本的研究（例如，高效算法、表示和存储）
• 以符合法规和道德的方式收集、注释、存储和处理数据
• 透明度和解释技术，以识别和减轻偏见，防止不公平
• 包括政策、程序和控制措施的治理框架，以确保上述各点以及在教育中的适当使用。

4.10 验证信息和维护完整性的成本

通过咨询外部权威来源验证模型提供的信息以确保准确性和完整性是重要的。此外，维护和更新模型以确保其提供准确和最新信息可能涉及财务成本。

对这个风险的负责任缓解策略将考虑以下关键方面：
• 定期更新模型以确保提供最新和准确的信息
• 使用多个权威来源验证模型提供的信息以确保正确性和完整性
• 结合人类专家（例如，教师或主题专家）使用，他们审查和验证模型提供的信息
• 制定协议和标准，用于核实和证实模型提供的信息
• 提供关于模型性能的清晰和透明的信息，它能够做什么或不能做什么，以及它运行的条件
• 为教育工作者和学习者提供如何使用模型、解释其结果和评估其提供的信息的培训和资源
• 定期审查和评估模型，透明地报告模型的性能，即它能够做什么或不能做什么，以及可能出现不准确或其他问题的条件。

4.11 难以区分真实知识与令人信服但未经验证的模型输出

大型语言模型生成类人文本的能力可能使学生难以区分真实知识和未经验证的信息。这可能导致学生接受虚假或误导性信息为真实，而不质疑其有效性。

为了减轻这个风险，除了上述与验证和完整性相关的缓解策略外，重要的是提供关于如何批判性评估信息的教育，并教授学生探索、调查、验证和证实策略。

4.12 缺乏适应性

大型语言模型无法适应学生和教师的多样化需求，可能无法提供有效学习所需的个性化水平。这是当前技术的限制，但可以想象，随着更先进的模型的出现，适应性将增加。

更具体地说，一个合理的缓解策略将包括：
• 使用自适应学习技术，通过使用学生数据（例如，关于学习风格、先前知识和表现等）来个性化模型的输出，以满足个别学生的需要
• 定制语言模型的输出，以符合教学风格和课程（通过使用教师提供的数据）
• 使用多模态学习和教学方法，结合文本、音频、视频和实验，为学生和教师提供更具吸引力和个性化的体验
• 使用混合方法，结合人类教师和语言模型的优势，生成针对性和个性化的学习材料（基于教师提供的反馈、指导和支持）
• 定期审查模型并持续改进与课程相关的用例，以确保其在教育目的上足够和准确运行
• 研究和开发更先进的模型，以更好地适应学生和教师的多样化需求。

5. 与用户界面和公平获取相关的进一步问题

5.1. 适当的用户界面

要将大型语言模型整合到教育工作流程中，需要进一步研究人机交互和用户界面设计。

在这项工作中，我们讨论了几个不同年龄段学习者的潜在用例——从儿童到成人。在创建这样的基于AI的助手时，我们应该考虑到潜在用户的心理成熟度、精细运动技能和技术能力。因此，用户界面应该适合任务，但也可能具有不同程度的人类模仿——例如，对于儿童来说，最好隐藏生成文本中的机械工件，并尽可能使用游戏化的互动和学习方法，以便与这些技术进行顺畅而吸引人的互动，而对于年长的学者来说，可以利用基于机器的内容来促进解决问题、批判性思维和事实核查能力。

总的来说，基于AI的辅助和学习工具的用户界面设计应该促进21世纪学习和解决问题技能的发展（Kuhlthau等人，2015年），特别是批判性思维、创造力、沟通和协作，这些方面需要进一步的基于证据的研究。在这个背景下，一个关键方面是适当地根据年龄和背景整合基于AI的辅助，以最大化其益处并最小化任何潜在的缺陷。

5.2. 多语言和公平获取

虽然大型语言模型的大部分研究都是针对英语进行的，但在这个领域对其他语言的研究仍然存在差距。这可能会使英语用户的教育比其他用户更容易和更有效，导致非英语用户对这种教育技术的不公平获取。尽管各个研究社区都在努力解决AI技术的多语言公平性问题，但仍有很大的改进空间。

最后，与获取、培训和维护大型语言模型相关的财务不公平可能需要由政府组织进行规范，目的是为所有有兴趣使用这些现代技术的教育实体提供公平的手段。没有公平的获取，这项AI技术可能会像前所未有的技术一样严重扩大教育差距。

因此，我们以联合国教科文组织的呼吁结束，确保AI不会扩大国家内和国家间的技术差距和教育差距，并推荐了以负责任和公平的方式使用AI以减少这种现有差距的重要策略。根据联合国教科文组织2030年教育议程（联合国教科文组织，2023年）：“联合国教科文组织的使命本质上要求对AI采取以人为本的方法。它旨在转变对话，包括AI在解决当前不平等方面的问题，包括获取知识、研究和文化表达的多样性，并确保AI不会扩大国家内和国家间的技术差距。‘AI为所有人’的承诺必须是每个人都能利用正在进行的技术革命并获取其成果，特别是在创新和知识方面。”

6. 结论

在教育中使用大型语言模型是一个有前景的研究领域，为增强学生的学习体验和支持教师的工作提供了许多机会。然而，要充分发挥这些模型在教育中的潜力，必须谨慎使用它们，并批判性地评估它们的局限性和潜在偏见。因此，将大型语言模型整合到教育中必须满足严格的隐私、安全以及——为了可持续扩展——环境、法规和伦理要求，并且必须与持续的人类监控、指导和批判性思维相结合。

虽然这篇评论反映了作者对大型语言模型作为教育中变革性技术的乐观机会，但它也强调了进一步研究的必要性，以探索将大型语言模型整合到教育中的最佳实践，并减轻已识别的风险。

我们相信，尽管存在许多困难和挑战，但讨论的风险是可以管理的，应该得到解决，以提供值得信赖和公平的教育获取大型语言模型。为了实现这一目标，本评论中提出的缓解策略可以作为一个起点。

CSPhD-winston-杨帆

关注

24
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
论文翻译：ChatGPT for good? On opportunities and challenges of large language models for education Author

大型语言模型代表了人工智能领域的一项重要进步。其底层技术是进一步创新的关键，尽管在社区和地区内存在批评观点甚至禁令，但大型语言模型将持续存在。这篇评论文章介绍了大型语言模型在教育应用中的潜在好处和挑战，从学生和教师的角度出发。我们简要讨论了大型语言模型及其应用的现状。然后，我们强调了这些模型如何用于创建教育内容，提高学生的参与度和互动性，以及个性化学习体验。关于挑战，我们认为教育中的大型语言模型需要教师和学习者发展一套必要的能力与素养，以理解技术及其限制和这些系统的意外脆弱性。
复制链接

扫一扫

专栏目录