Large Language Models for Education: A Survey and Outlook 大模型+教育的综述

引言

LLM已经在数学主题(物理、计算机)的多选题和自由问答上取得学生水平的表现。实证研究表明,LLM可以作为写作和阅读助手。近期研究 [164] 表明,ChatGPT 能够跨学科生成逻辑上一致的答案,平衡深度和广度。 LLM也可在课堂教学中应用,如师生协作、个性化学习等。但LLM在教育中,可能导致抄袭、AI偏见、过度依赖等问题。

现有的LLM in教育综述,缺乏从技术角度的总结,因此本文以技术为中心进行分类,对现有数据集和基准总结。

LLM在教育的应用

在这里插入图片描述

根据在教育中的用户角色和用法场景,分为学术研究(学习助手、教学助手、自适应学习)、商业工具。

学习助手

LLM解决了现有算法对生成固定形式回答的局限性,和现有辅助学习方法泛化能力差的问题。使用微调的LLM产生类人反映,帮助学生解决难题、纠错,以及对困惑的解释与提示,提供实时帮助。

1. 问题解决QS: LLM自身是强大的零样本解决器。为进一步增强QS能力,引入了CoT、小样本上下文学习能力、外部编程工具防止计算错误、多轮agent对话协作、外部验证器纠正中间错误。LLM可以有很强的QS能力,帮助学生找到答案。

2. 错误纠正EC: 对学生在学习过程中所犯的错误提供即时反馈。研究包括:利用4种提示策略纠正中英文本语法错误;GrammarGPT解决中文本土语法错误,利用人工+CHATGPT注释数据集对LLM微调;利用代码训练的LLM codex构建APR系统(Python编程作业),MMAPR可修复更多程序;少样本示例管道包含代码摘要生成和代码修改来创建示例。

3. 困惑帮助CH: 避免直接给出正确答案,而是利用LLM提供教学指导与提示。研究包括:基于输入条件和强化学习的各种引导问题生成方案;LLM以两种方式生成数学问题的解释:总结与问题相关的辅导聊天日志和从现有解释文本中学习一些案例;评估了 ChatGPT 和人类导师生成的代数提示之间的学习增益差异(LLM引导能力较差);对学生编程作业逻辑错误生成解释文本(解释能力不错,但正确性不足 信息缺失);为不同的学生群体生成适应性解释。

教学助手

开发基于LLM的教学辅助模型,帮助教师摆脱可替代性的工作。

1. 题目生成QG: 研究包括:利用LLM生成阅读理解题目,用补充阅读材料和教科书练习段落进行微调,再用可控文本生成方法,LLM可以生成更连贯段落和主题关键词;分析(GPT-4)提出多项选择题(MCQ)的能力(可以生成单一正确选择和高质量干扰项的 MCQ);用二维矩阵结构框架来对齐提示问题和阅读理解难度分类;生成具有隐含多样性控制的多样化数学文字题。

2. 自动评分AG: 之前评分算法探索最好答案和学生回答的语义比较,忽略了人工评分背后的逻辑考虑,且依赖注释良好的题目。研究包括:使用LLMs通过提示微调算法对开放性问题和写作文章进行自动评分(满意);指导LLMs在最终确定分数之前,先分析和解释所提供的材料;将评分对象从学生的文本回答扩展到手写回答;学习不同评分标准和注释示例之间的共享关系,然后在目标评分任务上进一步微调预微调的LLMs。

3. 教材创建MC: 帮助教师创建高质量教育材料方面具有巨大潜力。研究包括:LLMs进行异步课程创建的方法;GPT-4的零样本提示策略优化了英语作为外语(EFL)课程的材料;WorkedGen使用LLMs生成互动式工作示例,帮助学生理解。

在这里插入图片描述

自适应学习

1. 知识追踪KT: LLM in KT目前用于为题目文本和学生记录数据生成辅助信息。研究包括: 利用LLM在学生-问题响应图中提取每个问题文本的知识关键词,解决学生答题有限问题;DCL4KT+LLM基于题目文本和LLM相关知识概念预测题目难度,作为KT补充;探索LLMs在逻辑推理中的能力,特别是在扭曲事实的情况下。通过使用研究设计的提示,LLMs展示了在给定学生适当知识配置文件时模拟学生错误反应的可能性。

2. 内容个性化CP: LLM是生成式模型,因此可以创建个性化学习内容。研究包括:[89]根据学生最近的知识掌握诊断结果为学生生成动态学习路径;在生成过程中融入了知识概念结构。 具体来说,如果学生掌握了给定学习对象 (LO) 的主题,则会自动生成下一个 LO 的问题;根据学生兴趣创建情境化代数问题方面的潜力;将TikTok和NBA等新兴趣融入生成的问题文本中;利用基于聊天的LLMs生成学习推荐的解释。

教育工作包

工业界还开发了多种基于LLMs的商业教育工具。

  1. 聊天机器人: 根据学习者的个人需求调整其响应,提供个性化的反馈和支持。这种定制化可以适应不同的学习风格、速度和偏好。可以模拟对话,创建互动学习场景,并提供即时反馈;以自动化重复的教学任务,例如评分测验或提供基本反馈。例如,ChatGPT、Bing Chat、Google Bard、Pi Pi.ai 。
  2. 内容创建: 研究表明:Curipod:根据用户输入的主题生成互动幻灯片,包括投票、词云等,适合课堂互动;Diffit:提供分级资源的平台,教师可以创建和编辑定制资源并与学生分享;MagicSchool:自动化课程计划、评分和教育内容创建,提供超过40种AI工具;Education Copilot:提供各种教育需求的模板,简化教师的准备过程;Nolej:创建互动教育内容,如综合课程和互动视频,增强学习体验;Eduaide.ai:支持教师进行课程计划和教育内容创建的教学助手;Khanmigo:可汗学院开发的学习工具,作为虚拟导师和辩论伙伴;Copy.ai:生成各种类型的写作内容,如博客标题和社交媒体帖子。
  3. 教学助手: gotFeedback帮助教师提供个性化和及时的反馈;Grammarly作为在线写作助手,检查语法、拼写、风格和语调;Goblin Tools通过一套简单的工具帮助神经多样性个体处理日常任务;ChatPDF通过对话界面与PDF文档互动,使PDF内容的导航和交互更容易。
  4. 测验生成器: QuestionWell生成无限量的问题和相应的选择题,简化教育内容和评估的准备过程;Formative通过集成ChatGPT,生成新问题、提供学习提示和学生反馈,支持定制化学习路径;Quizizz AI根据内容自动生成选择题,并可修改现有测验;Conker生成各种类型的测验题,支持用户输入文本生成测验;Twee简化英语教师的课程计划,生成各种教育内容,帮助丰富课程计划和吸引学生。
  5. 协作工具: summarize.tech可以总结长篇YouTube视频,使用户快速获取要点;Parlay Genie生成基于特定主题的讨论提示,促进学生之间的深入讨论和批判性思维。

数据集和基准

研究人员构建了许多数据集和基准,涵盖了不同的用户需求、学科、学习水平和语言。这些数据集有的主要帮助学生,有的则为教师提供支持。用于教育应用的大量数据集和基准涵盖了从解题、错误修正到教师辅助等多个领域。这些数据集帮助评估和提升学生和教师在不同学科和教育水平上的表现。例如,数学和科学解题数据集帮助学生掌握抽象概念,外语和编程训练数据集帮助纠正语法和代码错误,而教师辅助数据集则评估生成问题和自动评分的能力。这些资源为教育提供了广泛的支持,促进了个性化和有效的学习。

在这里插入图片描述
在这里插入图片描述

风险与潜在挑战

1. 公平性与包容性

由于LLM训练数据的限制,其中可能存在特定群体的代表性和社会刻板印象占主导地位,可能会导致偏见。对于教育领域,关键的LLM公平性讨论基于人口偏见和反事实问题。[49]介绍了一些偏见的LLMs,这些模型无法为数据中未表示的某些人群生成有用内容。此外,某些人口群体中的人可能无法平等地访问质量相当的教育模型;[179]显示了LLMs在为未选择用于训练的语言群体生成内容方面的能力不足;[134]认为LLMs本质上会生成偏见,并提出了一个大型语言模型偏见指数,以量化和解决偏见,从而提高LLMs的可靠性;[25]展示了一些来自LLMs的性别偏见,并通过少样本学习和检索增强生成方法探索了可能的解决方案;[18]检查学者中的社会偏见,并认为微调是保持公平性的最有效方法;[100]分析了教育和医疗系统决策中的推理偏见,并设计了一个引导去偏框架,结合提示选择机制。

2. 可靠性和安全性

LLM存在包括幻觉、生成有害内容以及响应的不一致性。研究人员提出了多种解决方案,包括开发元认知策略和使用检索增强生成(RAG)等方法,以提高LLMs的可靠性和准确性。这些方法旨在减少模型的错误输出,并确保生成内容的安全性和一致性。

3. 透明性和问责

LLMs 本质上是一个黑箱机制,因此存在透明度和问责方面的担忧。研究人员提出了多种解决方案,包括开发检测工具以区分人类和机器生成的文本、在训练中加入引用以增强内容透明度,以及建立系统框架来跟踪模型变化。这些措施旨在提高 LLMs 的透明度和问责性,解决剽窃、考试作弊和知识产权侵权等问题。

4. 隐私与安全

隐私和安全保护已成为日益重要的话题,尤其是在教育领域,这些问题需要高度重视。[97]揭示了虽然研究主要集中在人工智能的有效性上,但在学习者对跟踪和分析算法的认知和接受方面仍有未被充分探索;研究人员提出了多种方法来应对这些挑战,包括开发检测算法、标准协议和结合检索增强生成(RAG)等技术。此外,强调用户对个人数据的控制也是保障隐私和安全的重要措施。

5. 对LLM过度依赖

人们非常担心学生会盲目依赖LLM完成大部分工作,导致他们独立思考的能力逐渐消失。类似Chat-GPT应用程序引发的过度依赖问题,学生可能会使用这些应用程序撰写论文和学术出版物,而不提高他们的写作技能,这是培养批判性思维的关键。这一担忧对外语学生或教育资源匮乏的学生影响更大;[213]讨论了过度依赖对民主可能带来的风险,建议在儿童中培养思维技能,促进连贯的思维形成,并区分机器生成的输出和真实内容;[5]还提出了一些场景,学生倾向于依赖LLM进行写作,而不是自己动笔写作,并展示了使用探究链式思维工具可以大大刺激学生思考的情况。

未来方向

在这里插入图片描述

  1. 与教学兴趣对齐的LLMs:在真实世界教学中直接应用LLMs仍然具有挑战性,因为提供高质量的教育是一个复杂的任务,涉及多学科知识和管理限制。未来的研究可以通过使用检索增强生成技术和收集真实世界的教学数据来解决这些问题,从而使模型生成的内容更符合教学需求,并减少对外部信息的依赖。
  2. LLM 多agent教育系统: 教育中的问题通常涉及多步骤处理逻辑,这非常适合使用基于多智能体的LLMs系统。Yang等人的研究展示了多个评分代理和评论代理如何通过小组讨论纠正评分中的错误。未来的研究可以引入更多类型的智能代理,并扩展其功能范围,同时允许人类教师直接参与并干预系统的运行。
  3. 多模态和多语言支持: 多语言和多模态支持可以显著提升教育体验。多语言支持让每个人都能以自己的语言访问全球优质教育资源,而多模态支持则通过整合不同类型的数据,为个性化和自适应学习提供更深入的见解。这些进展不仅能帮助学生更好地理解和参与学习,还能提高全球教育的公平性和包容性。
  4. 边缘计算和效率: 结合边缘计算,LLMs可以在更接近用户的位置处理数据,从而减少延迟、加快内容传递速度,并实现离线访问。这种方法不仅提高了教育技术的效率,还增强了隐私和安全,特别是在互联网连接有限的地区。优化后的轻量级LLMs将使这些技术更加普及和公平。
  5. 专门化模型的高效训练: 为特定学科开发专门化的大语言模型可以显著提升教育质量。这些模型不仅具备一般语言能力,还在特定领域拥有深入知识,能提供更相关和准确的支持。然而,高效训练这些模型需要创新的数据收集和训练方法,确保其在提供优质教育的同时具有成本效益。
  6. 伦理和隐私: 随着大语言模型在教育中的应用增多,伦理和隐私问题变得尤为重要。研究人员需要制定负责任使用LLMs的框架和指南,确保数据安全、保护学生隐私并减少偏见。这些措施对于建立信任并确保LLMs在教育中的正确使用至关重要。
  • 12
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值