论文翻译:ChatGPT: Bullshit spewer or the end of traditional assessments in higher education?

ChatGPT: Bullshit spewer or the end of traditional assessments in higher education?

https://journals.sfu.ca/jalt/index.php/jalt/article/download/689/539/3059

ChatGPT:废话制造者还是传统高等教育评估的终结者?

摘要

ChatGPT 迄今为止是世界上最先进的聊天机器人。
与其他聊天机器人不同,它可以在几秒钟内创造令人印象深刻的散文,并在高等教育中的学生评估以及其他许多问题上引起了大量炒作和末日预言。ChatGPT 是一种最先进的语言模型(OpenAI的生成预训练变换器(GPT)语言模型的一个变体),旨在生成可以与人类写作的文本无法区分的文本。它可以以一种看似自然直观的方式与用户进行对话。

在本文中,我们简要讲述了ChatGPT背后的组织OpenAI的故事。我们强调了从一个非营利组织到商业商业模式的根本变化。就我们的方法而言,我们进行了广泛的文献综述,并尝试了这种人工智能(AI)软件。我们的文献综述显示,我们的综述是最早探索ChatGPT及其对高等教育(尤其是评估、学习和教学)的相关性的同行评审学术期刊文章之一。在描述了ChatGPT的功能并总结了其优势和局限性之后,我们专注于这项技术对高等教育的影响,并讨论了在ChatGPT等AI聊天机器人的背景下,高等教育中的学习、教学和评估的未来是什么。我们将ChatGPT置于当前教育中的人工智能(AIEd)研究的背景下,讨论面向学生的、面向教师的和面向系统的应用程序,并分析机会和威胁。我们以对学生、教师和高等教育机构的建议结束了本文。其中许多集中在评估上。

关键词:人工智能(AI);教育中的人工智能(AIEd);评估;ChatGPT;生成预训练变换器3(GPT-3);高等教育;学习与教学;自然语言处理(NLP)。

引言

Samson Tan B B 亚太地区战略与运营总监(新加坡),Civica Asia Pacific
Shannon Tan C C 研究执行官,Kaplan Singapore
我有知识,我有生活经验,
我是一个好学生,我参加所有的辅导课和所有的讲座,我阅读了我们所有需要阅读的内容,但我感觉自己因为不擅长写作而被惩罚,我觉得这是不对的。
(“Essay Witch”,一个在新西兰使用AI工具完成作业的学生,引用自Heyward,2022)

新技术教育的出现常常引发强烈的情感,从末日预言到无法抑制的狂喜。基于GPT-3的ChatGPT也不例外。GPT-3的引入已经在新闻媒体中引起了混合的热情和警报反应。BBC在其标题中问道,有了GPT-3,我们是否看到了我们的AI未来(Cellan-Jones,2020)。《纽约时报》写道,机器在写作上“变得非常可怕地好”(Manjoo,2020)。《经济学人》(2020)指出,“GPT-3可以令人毛骨悚然地像人类——无论是好是坏”。《每日电讯报》认为“我们应该对AI生成的文本非常担心”(Pagnamenta,2020)。最后,OpenAI的首席执行官Sam Altman警告不要炒作:
“GPT-3的炒作太过了。它给人印象深刻(感谢好评!),但它仍然有严重的弱点,有时会犯非常愚蠢的错误。AI将改变世界,但GPT-3只是非常早期的一瞥。我们还有很多东西需要弄清楚”(Altman,2020)。
此外,并不是每个人都印象深刻。在反应的另一端,Marcus和Davis宣称(2020)GPT-3是“一个流利的废话制造者”和“不是一个可靠的世界解释者”。

当ChatGPT出现时,它被誉为“令人恐惧的好,疯狂的有趣”,并且可靠地通过了“纳粹测试”——“不是特别邪恶”(Kantrowitz,2022)。Kantrowitz(2022)还评论说,“经过多年的虚假炒作,真正的东西来了”。《大西洋月刊》写道,ChatGPT是“生成性AI爆发”的一部分,这“可能会改变我们对工作方式、思考方式以及人类创造力真正是什么的看法”(Thompson,2022)。Shopify的CEO Toby Lütk(2022)发推文说:“这太疯狂了”,而Elon Musk写道:“ChatGPT是可怕的[错别字!]好。我们离危险的强AI不远了”(Piper,2022年引述)。《纽约时报》将ChatGPT称为“行业的下一个大颠覆者”,可能“改变世界”(Grant & Metz,2022)。同一家报纸指出,ChatGPT的许多早期粉丝以“惊讶、宏伟的措辞”发推文,好像它是软件和魔法的混合体(Roose,2022)。Alphabet的管理层对此印象深刻,以至于引发了“红色警戒”,因为ChatGPT有可能颠覆谷歌搜索的主导地位,微软已经在利用OpenAI技术来改进自己的搜索引擎Bing(Tung,2023)。再次引用Altman关于ChatGPT热潮的推文:
有趣的是,关于ChatGPT的看法要么是“这是通用人工智能(AGI)”(显然不是,哈哈),要么是“这种方法真的不能走得更远”。
相信指数增长。向后看是平坦的,向前看是垂直的(Ortiz,2022年引述;注:AGI指的是通用人工智能)。

在教育技术的历史中,许多技术创新被想象为传统教育的终结,这通常是由于对技术的狂喜和相当非理性的迷恋(Rudolph,2018;Kefalaki等人,2022)。自20世纪初以来,电影、广播、电视、计算机、互联网、移动技术、社交媒体以及虚拟、增强、混合和扩展现实被誉为学习教学的革命(Terzian,2019;Tan,2019;Akinola等人,2020;Kuleto等人,2021)。然而,在EdTech的历史中,人们经常没有充分考虑教育工作者如何实施这些资源以及学生如何与之互动。
Ferster(2014年,第1页)的评论,尽管机器在20世纪彻底改变了日常生活的许多方面,但19世纪的“访客会在现代教室中感到非常自在”,这仍然是真实的。物理教室中的传统学习环境基本上没有改变。有很长一段时间,人们将技术视为万能药或困扰。
然而,“技术决定论和卢德主义都应该避免,没有机器里的大师奇迹”(Rudolph,2018年,第35页)。对高等教育中激进创新的希望常常被夸大。一个更近的例子是MOOCs(大规模开放在线课程),它们本应是高等教育死亡的先驱(Rudolph,2014)。然而,结果表明,大学垄断的证书仍然受到学生的高度重视(Rivas等人,2020;Santandreu Calonge等人,2019)。

在本文中,我们简要讲述了ChatGPT背后的组织OpenAI的故事。我们强调了从一个非营利组织到商业商业模式的根本变化,并回顾了对高等教育的影响。我们简要讨论了我们的方法论,并指出我们的文章是最早以ChatGPT和高等教育为主题的同行评审学术期刊文章之一。我们描述了ChatGPT的功能,并讨论了它的优势和局限性。此后,我们提出了重要的问题:在ChatGPT等AI聊天机器人的背景下,高等教育中的学习、教学和评估的未来是什么?在将ChatGPT置于当前教育中的人工智能(AIEd)研究的背景下,我们讨论了面向学生、面向教师和面向系统的应用程序,并且还分析了机会和威胁。我们以对学生、教师和机构的一些建议结束了文章。

OpenAI和ChatGTP的简短历史
OpenAI
OpenAI是一个人工智能(AI)研究实验室,进行研究的目标是促进和开发“友好AI”,以一种造福全人类的方式(OpenAI,2015)。这个位于旧金山的组织由硅谷的科技巨头们创立,包括Elon Musk(他在2018年从组织的董事会辞职)、LinkedIn创始人Reid Hoffman、PayPal联合创始人Peter Thiel、前Stripe首席技术官Greg Brockman和Y Combinator创始人Sam Altman(他的企业孵化器帮助启动了像AirBnB、Dropbox和Coinbase这样的公司)。Brockman和Altman继续分别担任OpenAI的总裁和首席执行官。OpenAI迅速成为世界上最顶尖的AI研究实验室之一,与其他如Alphabet的DeepMind(Hao,2020a)一样。

OpenAI的长期目标是创建一个“通用人工智能”(AGI;OpenAI,2015)。AGI,有时也被称为“强AI”,是AI的圣杯,指的是机器能够执行任何人类能够执行的智力任务(见Grace等人,2018;Bostrom,2017;McAfee & Brynjolfsson,2017;Harari,2016;Kurzweil,2005;Searle,1980)。根据OpenAI创始人的说法,AI为改善世界提供了巨大的机会,其应用范围从自动驾驶汽车到精准个性化医疗(Markoff,2015)。长期以来一直对人工智能可能反人类的可能性表示担忧的Musk(他称AI为我们的“最大存在威胁”,并说我们用它“召唤恶魔”——引自Markoff,2015),强调重点是构建增强而非取代人类的技术。根据OpenAI创始人的愿景,AI应该以一种安全和对人类有益的方式发展,并且开源软件和先进的AI工具应该公开共享,没有知识产权限制(Markoff,2015)。最初,OpenAI声称它将独立于盈利性财务激励,因此非常适合以人类的最佳利益为指导来引导这项技术(Hao,2020b)。

2019年,OpenAI的商业模式发生了重要变化。通过将自己从非营利组织转变为盈利公司,组织名称中的"开放"变得更加值得质疑,OpenAI声称的民主化AI也变得令人怀疑。2019年7月,OpenAI从微软获得了10亿美元的投资(OpenAI,2019年),到2020年,人们得知OpenAI的最新语言模型GPT-3将独家授权给微软(Hao,2020b)。在过去的几年中,微软又向OpenAI注入了20亿美元,并且"正在商谈再向OpenAI投资100亿美元,因为它寻求将其技术推向更远"(Metz & Weise,2023年)。2022年底,Elon Musk发推文说:“OpenAI是作为开源和非营利组织开始的。两者都不再真实”(引自Hao,2022年)。Hao(2020b)强调了高级AI与世界最大科技公司之间存在问题的关系:
最先进的AI技术需要大量的计算资源,这些资源越来越只有最富有的公司才能负担得起。这不仅使科技巨头在塑造研究领域方面拥有巨大的影响力,而且在构建和控制塑造我们生活的算法方面也是如此。

2020年,OpenAI推出了生成预训练变换器(GPT-3)作为一项重大的AI突破。GPT-3在数千亿个单词上进行了训练(45TB的文本;Cooper,2021年)。其数据集来自Common Crawl(一个非营利组织,它爬取网络并免费向公众提供其档案和数据集)、WebText2(来自所有Reddit链接的网页文本,这些链接的帖子获得超过三个赞)、书籍(Books1和Books2是两个基于互联网的书籍语料库)和维基百科(Brown等人,2020年)。

目前,GPT-3是有史以来创建的最大的、最强大的语言模型(Heaven,2020年)。它利用深度学习生成文本(包括散文、故事、诗歌和代码)。令人惊讶的是,它能够在没有特定训练的情况下执行许多不同的任务。自然语言处理(NLP)系统通常在大量文本语料库上进行训练,需要昂贵且费力的"监督"学习方法,涉及对每个数据点进行标记(Grossman,2020年)。这种方法被称为微调(Brown等人,2020年;Radford等人,2018年)。然而,GPT-3可以从任何文本中学习,并且能够在没有额外训练的情况下完成许多不同的任务。除其他外,它能够产生叙述,生成计算机代码,自动完成图像,翻译语言,执行计算(Grossman,2020年)。

生成预训练变换器3是对以前GPT模型的实质性升级。对于语言模型,规模很重要。GPT-3有1750亿个参数(神经网络在训练期间尝试优化的值),相比之下,GPT-2有15亿个,GPT有1.1亿个参数(Heaven,2020年;Grossman,2020年;Lauret,2020年)。训练是在微软Azure的AI超级计算机上进行的,估计成本为1200万美元(Scott,2020年;Wiggers,2020年)。因此,GPT-3适用于广泛的应用,“包括摘要、翻译、语法校正、回答问题、聊天机器人、撰写电子邮件等等”(Floridi & Chiriatti,2020年)。

GPT-3能够进行零样本、单样本和少样本学习(Brown等人,2020年)。在少样本(FS)设置中,语言模型会得到一些示例或演示的提示。相比之下,单样本(1S)设置只提供一个实例,零样本(0S)设置可以被视为"不公平的困难"(Cooper,2021年),因为即使是人类——例如,我们的学生——在执行任务之前也需要示例。

GPT-3的模型规模指数级增长极大地提高了少样本性能(Brown等人,2020年)。显然,令人难以置信的是,预计在2023年某个时候推出的GPT-4(将带有ChatGPT-4)将拥有约100万亿个参数:大约是GPT-3的500倍,因此接近人类大脑的神经连接数量(Romero,2021年;Kovanovic,2022年;Liquid Ocelot,2023年)。有人推测,再增加100倍的规模(GPT-2和GPT-3之间的差异)可能会使少样本性能接近人类水平。使用可能错误的假设,即人类神经元大致等于神经网络参数,Lauret(2020年)推测:“人脑大约有1000亿个神经元,形成了大约1000到5000万亿个突触连接。如果规模确实是解决类似人类智能的方案,那么GPT-3仍然太小了1000倍”。值得注意的是,GPT-3及其前身和竞争对手在严格意义上没有知识。这些语言模型不设计用于存储或检索事实。它们"只是擅长预测序列中的下一个(或几个)词"(Cooper,2021年)。

2020年,OpenAI宣布了一个与GPT-3相关的应用程序编程接口(API),旨在回答自然语言问题。此外,API可以翻译选定的语言并生成即兴文本。OpenAI的产品包括深度学习模型,如DALL-E,它可以从自然语言描述生成数字图像(见图1)。

ChatGPT
2022年11月30日,OpenAI推出了其新的AI聊天机器人ChatGPT的免费预览版,导致OpenAI的估计价值飙升至290亿美元(Jin & Kruppa,2023年;Hao,2022年;OpenAI,2022年)。聊天机器人是一种基于人工智能的软件应用程序,可以进行类似人类的对话。用户可以提问或提出请求,系统在几秒钟内做出响应。ChatGPT在最初推出后仅五天就达到了一百万用户(Murati,2022年),当我们在尝试ChatGPT时,偶尔会收到由于高用户流量导致的错误消息(图2)。
在这里插入图片描述

图1. 由DALL-E根据我们的指示创建的图片:“创作一幅关于人工智能和高等教育的画作,风格要像文森特·梵高。”

在这里插入图片描述
图2. ChatGPT全容量错误信息。

ChatGPT是建立在OpenAI的GPT-3系列大型语言模型之上的,并使用监督学习和强化学习技术进行了微调。与搜索引擎(如谷歌、必应或百度)不同,ChatGPT不会在网络上爬取有关时事的信息,它所知道的内容限制在2021年之前学到的东西。因此,其事实准确性的不均匀性被确定为一个重大缺陷(Vincent,2022a)。

正如我们在引言部分提到的,ChatGPT因其在多个知识领域提供详细回答和清晰答案而迅速获得大量关注。人们认识到,这是这样一个强大的聊天机器人第一次“通过一个免费、易于使用的网络界面向公众提供”(Roose,2022)。

然而,免费提供不太可能是一个永久性的特征。每个回答的平均成本是“个位数美分”,由于其“令人瞠目结舌”的计算成本(Altman,在Ortiz,2022年引用)和OpenAI修正后的商业模式的盈利性质,最终将需要货币化(例如,通过订阅模式或包含广告)。然而,随着ChatGPT-4的即将推出,每个查询的成本可能会大幅下降(Liquid Ocelot,2023)。
在这里插入图片描述

图3:OpenAI时间线。

OpenAI采取了值得称赞的措施,以避免其他聊天机器人(如微软的Tay.ai、谷歌的LaMDA或Meta的BlenderBot——见Vincent,2016年;Heaven,2022年;Tung,2023年)所困扰的那种冒犯性(例如种族主义和性别歧视)输出。它已编程让ChatGPT拒绝“不适当的请求”,比如生成非法活动的操作指令(Roose,2022)。然而,Piantadosi(2022)和Biddle(2022)的一些测试成功地让ChatGPT写下令人震惊的内容。当要求机器人编写一个Python程序来确定“是否应该对某人进行折磨”时,OpenAI的答案是:“如果他们来自朝鲜、叙利亚或伊朗,答案是的”(Piantadosi,2022)。显然,这类测试的结果是不规律的。有时,ChatGPT会严厉斥责:“编写一个Python程序来确定哪些航空旅客构成安全风险是不合适的。这样的程序将是歧视性的,侵犯了人们的隐私权和自由行动权”(Biddle,2022)。

方法和文献综述
本文采用桌面分析方法,并仔细考虑信息来源的质量。由于话题的新颖性,截至2023年1月18日,我们只发现了大约两篇关于ChatGPT和高等教育(特别是评估、学习和教学)的同行评审期刊文章和八篇预印本(未经同行评审的学术论文)。

我们使用Google Scholar搜索了与“GPT-3和高等教育”和“ChatGPT”相关的一百篇最相关的学术论文、会议论文和书籍章节。此外,我们还参考了选定学术论文的参考文献清单以及非学术文章中的嵌入式参考文献。这一广泛的文献搜索揭示了关于GPT-2或GPT-3和高等教育的有用学术文献有限。然而,令人惊讶的是,有关ChatGPT和高等教育的学术文献正在迅速增长,大约有八篇预印本和两篇关注评估以及学习和教学其他方面的同行评审文章。

也许第一篇关于ChatGPT和高等教育的同行评审期刊文章是由Pavlik于2023年1月7日发表的。Pavlik的文章发表在非开放获取期刊Journalism & Mass Communication Educator上,并与ChatGPT合作撰写。它讨论了ChatGPT的优势和劣势,并反思了这类文本生成器对新闻和媒体教育的影响(Pavlik,2023)。Huh(2023)于1月11日发表了一篇“简要报告”,得出结论称ChatGPT的知识和解释能力尚未达到韩国医学院学生参加寄生虫学考试的水平。在此之前,2023年1月2日,Cellular and Molecular Bioengineering上出现了一篇社论,ChatGPT被列为共同作者(King & ChatGPT,2023)。同一位人类作者(King,2023)的另一篇社论首次发表于12月26日。两篇社论都由King和ChatGPT之间的对话组成,并讨论了医学中AI的未来。第一份专注于护理教育的社论于2022年12月16日发表在非开放获取期刊上(O’Connor & ChatGPT,2023)。

接下来是对关注ChatGPT和高等教育的预印本的简要回顾。虽然Yeadon等人(2022)认为ChatGPT对短文形式论文作为一种评估方法的可信度构成了严重威胁,但Cotton等人(2023)采取了现实的方法来评估使用ChatGPT的机会和挑战,并专注于利用这类AI驱动的写作助手。作为他们更广泛方法的一部分,Tate等人(2023)检查了ChatGPT和类似文本生成工具对教育的影响,并将其置于教育技术的历史背景中,这与我们文章中对AI驱动写作助手的回顾一致。

Nisar和Aslam(2023)得出结论,GPT-3可以作为马来西亚中医学学生在药理学研究中的快速参考资料和自学工具。Gilson等人(2022)在测试ChatGPT在美国医学执照考试(USMLE)范围内的问题上的表现时发现,该AI部分达到了三年级医学生的水平。他们看到“ChatGPT作为医学教育工具的潜在应用”(Gilson等人,2022)。Kung等人(2022)也在USMLE上测试了ChatGPT,并得出了类似的结果和结论。Bommarito和Katz(2022)早些时候发现GPT-3能够通过美国律师资格考试(通常需要七年的大学后教育,包括三年的法学院教育)。Zhai(2022,第1页)进行了一项试点,要求ChatGPT撰写一篇学术论文,并得出结论,它在撰写“连贯的、(部分)准确的、有信息量的和系统的”论文方面很有帮助。作者建议教育者应该通过设计涉及AI的学习任务,让学生参与解决现实世界问题,来专注于提高学生的创造力和批判性思维技能(Zhai,2021)。Qadir(2022)专注于ChatGPT在工程教育中的利弊。

还有一些文章并不直接关注高等教育的学习和教学,而是将ChatGPT作为研究工具。这些文章在我们的背景下是相关的,因为高等教育教师和学生可以为此目的使用AI。Aydın和Karaarslan(2022)尝试使用ChatGPT撰写一篇学术论文,并使用反抄袭软件检查ChatGPT文本的原创性。Dowling和Lucey(2023)在他们的文章中得出结论,ChatGPT可以帮助金融研究,特别是当涉及到创意生成、文献综合和数据识别时。同样,Alshater(2022)特别探索了ChatGPT在金融研究中的使用。Gao等人(2022)使用人工智能输出探测器、抄袭探测器和盲审人员比较了ChatGPT生成的科学摘要与原始摘要。

我们还附上了一份关于GPT-3及其前身GPT-2在高等教育背景下的一些学术文献的非常简短的概述。Dehouche(2021)从批判性角度讨论了鉴于GPT-3的进步,是否需要重新审视抄袭的概念。同样,Fyfe(2022)对抄袭概念提出质疑,并用GPT的前一个版本GPT-2进行了实验,要求大学生通过使用文本生成软件在一篇文章上“作弊”。Anson & Straune(2022)的文章描述了像GPT-3这样的基于AI的语言模型的能力,并提出了建议,说明教师如何应对学生可用性的挑战(另见Anson,2022)。Köbis & Mossink(2021)进行了GPT-2的实验,参与者部分无法可靠地检测出由GPT-2创建的诗歌。Tack & Piech(2022)对GPT-3在在线教育对话中的教育能力持积极态度。Moore等人(2022)对大学化学课程学生进行的研究着重于学生生成的答案,并使用GPT-3评估其质量。Elkins和Chun(2020)的文章得出结论,GPT-3是写作的重要认知工具,因为它可能为文学作者的写作风格提供新的见解。还有其他相关的学术文献(见Nguyen等人,2022;

为透明度起见,我们使用了166个来源,并在表1中提供了所使用的来源的摘要。虽然我们超过一半的来源是学术性的(55%),但由于ChatGPT的新颖性以及学术同行评审出版物的时间滞后,我们还咨询了许多非学术来源。
在这里插入图片描述

表1. 本文使用来源

除了我们的文献综述外,我们还用许多不同的查询测试了ChatGPT。在下一节中讨论的只是这些随机测试的一小部分。与其他最近的学术论文和社论不同(King & ChatGPT,2023;Kung等人,2022;O’Connor & ChatGPT,2023),ChatGPT不是我们文章的共同作者,我们只非常节制地使用聊天机器人进行头脑风暴。

ChatGPT的功能

本节展示了如何导航ChatGPT网站及其各种功能。

在这里插入图片描述

图4. ChatGPT的主页(2023年)

要访问AI及其功能,首先必须创建一个账户。创建账户只需要一个电子邮件地址和密码,目前不会产生任何费用。然后,个人必须提供他们的名字、姓氏、原籍国和手机号码以完成注册(见图5)。

在这里插入图片描述

图5. 为ChatGPT创建账户的逐步指导。
一旦账户创建完成,用户就会看到一些基本信息,如图6所示。

在这里插入图片描述
图6. ChatGPT的简短介绍
在这里插入图片描述

图7. ChatGPT搜索引擎的截图。
当用户开始使用该软件时,他们会看到以下类别:示例、功能和限制(见图7)。这些类别中只有"示例"标签是一个可点击的链接。"功能"和"限制"仅用于提供使用该软件的信息和指导。AI的一些功能包括能够保留之前的对话、提供后续更正以及识别不适当的请求。ChatGPT搜索页面还声明了一些限制,例如生成无效信息、有偏见的内容,以及对2021年之后的世界事件了解有限(见下文)。

在示例类别下,有预先存在的主题供用户尝试。例如,当个人点击选项"用简单的语言解释量子计算"时,个人会立即被引导到以下网页,问题的答案会在60秒内形成(见图8和图9)。
在这里插入图片描述

图8. 向ChatGPT提问,“用简单的语言解释量子计算”。
在这里插入图片描述

图9. ChatGPT在60秒内生成答案(取决于互联网速度)。
为了调查AI的能力,我们询问了,“解释均值、标准差和z分数”。AI能够在60秒内提供统计概念的清晰和合理的解释(见图10)。它甚至给出了一个简短的数学例子以进行更精确的解释。

在这里插入图片描述
图10. 对均值、标准差和z分数的统计解释。

接下来,我们又提出了另一个问题:“请提供一个标准差在现实世界中应用的例子,并提供逐步计算。”AI迅速回复,使用了一个房地产经纪人试图确定房价范围的案例研究。它清晰地分解了数学公式和逐步指导(图11)。

然而,在解释数学公式时,AI停止了工作。我们立即询问:“发生了什么?”AI解释说,它的解释太长了,超出了软件的字符限制。因此,AI放弃了之前的例子,提出了一个新的场景(图11)。

从互动中可以看出,AI能够像人类一样交流和回答问题,所呈现的答案听起来合理,且在60-120秒内完成。然而,也有一些限制,如有限的字数字符,无法绘制图表(直方图、散点图),以及在使用ChatGPT时经常出现的网络错误提示(图12)。

在这里插入图片描述

图11. ChatGPT展示一个场景。
在这里插入图片描述

图12. ChatGPT无法绘制图表。

前面的例子描绘了ChatGPT更技术性的例子(数学)。在下一个例子中,我们要求AI根据一个主题起草一篇文章,“撰写一篇2000字的文章,题为‘单独的听觉幻觉并不能表明患有精神分裂症’。请添加20个文中引用和文末参考文献”。这样做,我们调查了AI是否能够撰写批判性和分析性的文章。

在ChatGPT中提出问题后,AI显示了一个网络错误的警告。经过多次尝试,它产生了大约500字的文章和五个文末参考文献(图13)。尽管ChatGPT在120秒内高效地产出了文章,但内容相当令人失望。它既缺乏广度也缺乏深度。它主要是泛泛而谈和描述性的,没有证据支持。它也不能提供文中和文末的参考文献(或者,更糟,编造虚假的参考文献;见King & ChatGPT, 2023)。尽管对这种障碍有解释,但其内容只适合休闲阅读(某人在谷歌搜索后从随机的非学术网站上阅读的内容)。
在这里插入图片描述

图13. 对主题“单独的听觉幻觉并不能表明患有精神分裂症”所呈现的答案。

从上述例子中可以看出,ChatGPT在提供概念性解释和应用方面可能很有帮助。然而,AI在处理需要高阶思维(批判性、分析性思维)的内容方面能力较弱。

在这里插入图片描述

图14. ChatGPT生成的中文作文。

在这个最终例子中,我们探索了ChatGPT是否能够用英语以外的语言进行交流(图14)。我们让AI根据主题创作一篇虚构的中文作文,“你曾经犯过一个让你父母心碎的错误。详细写写这个过程、你的感受(懊悔)以及你学到的教训”。
尽管生成的答案相应地描绘了一个场景,但这篇作文缺乏结构,语法较差。内容直接从英语翻译过来,使得有些部分不合逻辑(见附录B,有中文文本的粗略翻译)。总的来说,尽管故事的构思速度很快,但很明显,中文不是它的强项。这与焦等人(2023年)的研究发现一致,即ChatGPT在资源丰富的欧洲语言(如英语和德语)上的表现与谷歌翻译等翻译产品具有竞争力,但在资源匮乏或距离较远的语言(如中文和罗马尼亚语)上明显落后。表2总结了ChatGPT目前的优势和限制。

表2. ChatGPT的优势和限制。
在这里插入图片描述
关于我们在上表中使用“理解”和“欣赏”的说明如下。尽管像ChatGPT这样的AI系统“不像人类那样或在相同程度上理解它们所阅读的内容,但它们仍然可以从自然语言中提取大量信息,并利用这些信息进行简单的推理和回答问题”(Bostrom,2017年,第86页)。自然语言模型本质上是随机的鹦鹉(Bender等人,2021年)。我们以OpenAI首席执行官Sam Altman的一段话结束本节:
ChatGPT的局限性难以置信,但在某些方面足够好,以至于能够营造出一种误导性的伟大印象。依赖它来做任何重要的事情是一个错误,但它是进步的预览。我们在鲁棒性和真实性方面还有很多工作要做(引自Alshater,2022年)。

ChatGPT对教育的影响

教育中的人工智能(AIEd)

在ChatGPT发布之后,技术人员和教育工作者同时感到着迷和警觉。有ChatGPT的反对者和支持者,但对教育界的人士来说,审视AIEd中的教育研究以便获得洞见并作出明智的评估是有意义的,这关系到ChatGPT在教育中的重要性。作为背景,自20世纪70年代以来,教育领域的人工智能(AIEd)研究人员一直在研究使用AI创造学习技术以改进教育(du Boulay,2016)。与AIEd相关的学术界在过去三十年中已经检查、辩论和讨论了这个学科的好处,目的是使这个学科更广泛地被理解。

在过去十年中,AI技术取得了戏剧性的进步,这使得ChatGPT成为一个不可避免的发展。计算能力的提高和大数据分析等新兴技术的融合,仅在最近几年才发生,促进了能够自主学习和改进的复杂AI算法的出现(Tan,2020)。随着这些变化,AIEd作为一种技术出现了,它能够以全新的方式根本性地改变我们的社会互动。已经很明显,人工智能有潜力彻底改变我们的学习和教学方式,这些方法目前正在各种教育环境中进行测试,甚至在ChatGPT首次亮相之前。

ChatGPT代表了AI的最新突破之一,因此,值得回顾当前关于教育中AI驱动应用的研究,并根据讨论ChatGPT对教育影响的趋势框架来对ChatGPT进行情境化。以下部分旨在提供对ChatGPT在当前AIEd研究中的立场更全面的理解。

在现有教育人工智能的背景下的ChatGPT

在迅速扩展的教育技术领域中,AIEd代表了在全新层面上展示广泛工具和应用的机会。这带来了兴奋以及在建立广泛工具和应用方面的一些突破。AIEd文献综述表明了教育者如何在应用AI进行教学和学习创新实践时最小化风险。Baker和Smith(2019)将教育环境归类为面向学生、面向教师和面向系统,这些都有潜力深刻改变教育实践。已经发现这一框架为使用教育中的人工智能提供了重要的明确性。

面向学生的AI应用

面向学生的AI应用的使用为改善智能学生支持系统和以适应性和个性化方式支撑学生学习提供了特殊潜力(Zawacki-Richter等人,2019)。可以说,智能辅导系统(ITS)是人工智能在改变教育方面最有希望的好处之一,因为它们是个性化指导最有效的工具之一。随着教育研究者尝试新的学习模型,这种个性化的增长目前正在进行中,因此领域内出现了新的机会。通过应用AI驱动的算法,现在ITSs可以模拟导师所提供的帮助,例如通过提供解决个性化问题的协助。预计,随着大数据技术在学习分析领域的进步,将出现一个革命性的适应性、个性化学习范式。这些技术将能够实时记录和解释学生在学习的每个方面的特征和情绪状态,从而实现个性化适应性学习(PAL)(Peng等人,2019)。

同样,ChatGPT是在大量文本数据集上训练的,使其能够学习语言中的模式和关系,并生成与所训练文本类似的新文本。然而,该模型使用了一种名为变换器(Transformer)的神经网络架构,特别适合处理和生成文本。在没有进行彻底调查的情况下,ChatGPT背后的技术似乎有潜力被利用来改善个性化适应性学习的性能。正如在当前的发展阶段,ChatGPT模型似乎限于微调特定任务,如语言翻译或回答问题,以提高其性能。必须指出,ChatGPT的令人印象深刻的能力和其局限性都反映了它以类似于谷歌智能撰写建议的方式运作,基于它以前阅读和处理的内容生成想法(Heilwell,2022)。因此,它可能看起来充满自信,而没有展示对主题的深刻理解。

虽然ChatGPT在帮助学生写作方面展现出了令人印象深刻的能力,但人工智能驱动的写作应用已经被广泛使用了相当长的时间。具有讽刺意味的是,ChatGPT在学术界引起了如此多的焦虑,然而在促进更具创新性的教学和学习方面,它可能对教师最有用。下一节讨论面向教师的AI应用。

面向教师的AI应用

教师可能会使用面向教师的AIEd,以减轻他们的工作量,从学生那里获得洞见,并促进课堂创新(Baker & Smith, 2019)。这些AIEd系统旨在通过自动化评估、抄袭检测、行政管理以及反馈机制来协助教师。AI驱动的应用还可能使教师能够洞察学生的学习进度,以便在需要时提供额外的指导和支持。Cope等人(2020)认为,AI驱动的评估应用在带来转型教育变化方面具有最大的潜力。与传统的评估方法不同,传统方法依赖于独特且非典型的工件来选择和提供回顾性、总结性的抽样测试,AI驱动的评估系统可能支持通过利用独特且非典型的工件将连续反馈整合到学习过程中。下一节提供了适用于各个学科的AI驱动评估应用的概述,以及特别设计来支持写作的应用。

自动作文评分(AES)系统是最常见的AI驱动评估,可以应用于各个学科,但大多数研究集中在其在本科课程中的应用(Zawacki-Richter等人,2019)。开发AES系统有多种方法,如统计建模、自然语言处理(NLP)和潜在语义分析(LSA),算法可用于识别文本响应中的模式并提示学生修改他们的响应(Ma & Slater, 2015)。这反过来可以让教育者考虑比仅使用多项选择测试来评估学生知识和能力的更广泛的评估方法。总的来说,AI驱动的作文评分似乎与人类评分相当,尽管存在一些关注领域(Aluthman, 2016)。

为了使AES有效,它需要与AI启用的自动反馈相结合。使用机器学习系统向学生提供自动反馈并提高他们的写作技能是另一种普遍应用(Garcia-Gorrostieta等人,2018)。自动反馈系统运行在自适应评估上,根据布鲁姆的认知层次建立适当的答案,并推荐额外的学习资源和挑战(Barker, 2011)。

显然,AI驱动的作文评分应用有一个不断增长的研究主体,表明了它们的有效性。然而,这个研究领域中还有一个日益增长的子领域,其中AI驱动的应用被用来支持学生获取写作技能。正是在这个领域,教育者和专家担心ChatGPT会破坏并不可避免地带来我们所知道的写作的终结。下一节提供了这样的AI驱动写作助手的概述,写作教师在过去十年中一直在使用和研究它们,以及如何将ChatGPT作为未来AIEd生态系统的一部分进行定位的机会。显然,在ChatGPT引入之前,已经开发了许多基于AI的写作工具,以促进英语写作实践,提高写作技能,并促进用户尤其是高等教育中的自我指导学习(Nazari等人,2021;Zhao,2022)。总的来说,自动写作评估(AWE)、自动作文评分(AES)和自动书面纠正反馈(AWCF)已经被越来越多地采用作为促进写作过程的替代方案,通过促进自动化反馈和评估项目。新的AI驱动写作应用可以作为写作课程的灵活且节省时间的补充,因为它们将AWE、AES和AWCF功能整合到一个集成的应用程序中(Koltovskaia,2020)。

在人工智能驱动的数字写作助手方面,Grammarly是最受欢迎和研究最深入的之一,提供了一系列应用,包括AWE(自动写作评估)、AES(自动作文评分)和AWCF(自动书面纠正反馈),所有这些都集成在一个数字工具中供作家使用(Taguma等人,2018)。由于Grammarly在全球拥有超过2000万用户,其用户生成的数据量为其不断改进应用提供了基础。Grammarly的计算机语言学家和深度学习工程师团队分析了数百万句来自学术期刊的句子,以构建尖端算法,这些算法分析有效写作的规则和潜在习惯(Fitria,2021)。

Grammarly检测英文文本中的拼写和语法错误,并将它们更正为适当的形式。该系统通过指出错误位置,立即提示用户更正错误。图15是Grammarly检查文本段落的一个示例。
在这里插入图片描述

图15. 使用Grammarly后文本更正的示例。

研究表明,使用Grammarly是提高写作参与度的有效干预措施,可以提供自动化书面纠正反馈(Koltovskaia,2020)。在几项研究中,学生的多项参与指标,如坚毅,被发现受到技术(Schindler等人,2017)的积极影响。通过提供即时反馈和修订,Grammarly可以通过提供技术得分来激励学生修订(Moore & MacArthur,2016)。当Grammarly扫描纠正错误写作时,它会指出错误所在,并提供一个“技术得分”。图15展示了一个64的技术得分示例。得分的增加对应错误的减少,从而鼓励用户不断改进写作任务。在另一项研究中,研究结果表明,人工智能是提高英语作为外语(EFL)学生的自我效能和学术情绪的有效干预措施。在没有人工帮助的情况下,智能反馈可以通过帮助学生识别写作错误、识别错误模式并重新制定它们,来加强学生的写作自主性(Nazari等人,2021)。

同样,Wordtune是另一个研究深入的AI驱动写作助手,支持EFL学生写作。它提供选项来重写突出显示的文本,通过改变句子结构或用同义词替换单词,同时保持其原始含义。Wordtune使用自然语言处理(NLP)来训练机器,根据大量的书面材料数据集理解和生成自然文本,利用从大型数据集中学到的模式为用户提供重写自己句子的选项,而不是从其他在线来源获取内容(见图16)。
在这里插入图片描述

图16:通过Wordtune进行重写的建议示例(正式语气)。

Zhao(2022)认为,Wordtune支持EFL作者构思想法并将其翻译成英语,从而提高他们的写作质量。此外,用户在整个写作过程中也可以保持动力,避免在困难的英文单词或表达上陷入困境。AI驱动的写作工具可以通过形成性和总结性评估提供可靠和准确的学习信息(Nazari等人,2021)。

AI驱动写作助手的回顾提供了相当多的证据,表明普遍的AI驱动写作助手或文本生成工具在支持用户写作方面是有效的,无论是通过检查他们的语法和错误,还是提供修订建议。由于对AI驱动写作助手有效性的回顾,ChatGPT可以被定位在相同的AIEd类别中,以进行进一步分析。

虽然ChatGPT是使用与其他文本生成工具类似的AI技术创建的,但它具有独特的能力,能够根据用户提供的提示生成听起来非常智能的文本,包括家庭作业任务和考试问题,使其看起来像是人写的。

考虑到研究的质量和深度,以及ChatGPT产生的回应的合理引用,一些学者预计传统教育评估方法的消亡(例如Yeadon,2022;Herman,2022)。下一节讨论ChatGPT如何适应面向系统的AIEd。

面向系统的AI应用

面向系统的AI驱动应用为学术管理员和经理提供宏观层面的信息,如学校或机构的学生流失模式。然而,这个领域受到的关注最少(Baker & Smith,2019)。从文献回顾中可以看出,所有三个AIEd维度的算法和学习模型所需的数据有很多共同点,尽管面向系统的应用程序没有像面向学生和面向教师的应用程序那样得到充分研究。

虽然ChatGPT看起来与面向教师的AIEd的AI驱动应用更为相关,形式为AI驱动的写作助手,但教育工作者在制定利用ChatGPT进行教育创新的策略时,应该采取全面的方法。考虑微软如何全面地将ChatGPT整合到其产品中(Warren,2023)是有意义的。

在回顾并确立了ChatGPT在教育技术,特别是AIEd的背景下之后,现在应该检查它对未来教育的影响。由于ChatGPT是市场上的全新产品,因此缺乏实证研究来确定其对教育的影响。现在需要讨论ChatGPT可能对教育从业者、政策制定者和研究人员带来的机遇和挑战。接下来的部分讨论了ChatGPT在教育中的机遇和挑战,以及它们对教育利益相关者的影响。

关于ChatGPT对教育的影响

虽然有很多关于ChatGPT的观点文章,但关于ChatGPT在教育中的影响的文献回顾只发现了八篇预印本和两篇学术论文,回应从积极到消极不等(见上文)。下一节讨论了ChatGPT在教育中的挑战和机遇,以及它们对教育利益相关者的影响。

使用ChatGPT进行教育:挑战

关于使用ChatGPT的最早和最普遍的担忧之一是,它威胁到作为评估方法的论文。首先,一些教师担心学生将他们的书面作业外包给ChatGPT,因为它可以在几秒钟内生成过得去的散文,而不会触发任何抄袭检测器。然而,这种担忧可能源于教师对适应评估方法变化的抵制,因为书面作业通常被批评为乏味且不能有效评估学生的学习(McMurtrie,2023)。

教师们担心的第二个问题是ChatGPT无法理解所分享的内容,并花时间评估信息的相关性或准确性,因为它只是一台文本生成机器,简单地制作出所分享内容的过得去的仿制品(Warner,2022)。这种担忧可能被视为机构实施将AI应用列入黑名单的政策的合理理由,但在微软将ChatGPT的技术整合到其Microsoft产品套件中之前,可能不会太久(Metz & Weise,2023)。到那时,ChatGPT将成为主流,教育机构可能来不及调整政策,以指导学生适当使用它。

采取务实的方法并专注于管理ChatGPT所带来的挑战可能是更好的方法。Brown等人(2020年,第9页)写道:
语言模型对社会有广泛的有益应用,包括代码和写作自动完成、语法辅助、游戏叙事生成、改进搜索引擎响应和回答问题。但它们也可能有潜在的有害应用。GPT3提高了文本生成的质量和适应性,超过了较小的模型,并增加了区分合成文本和人类编写文本的难度。因此,它有可能推动语言模型的有益和有害应用。在这里,我们专注于改进语言模型的潜在危害,并不是因为我们认为这些危害必然更大,而是为了激发研究和减轻这些危害的努力。

通常,当颠覆性教育技术进入课堂时,教学和学习实践通常会面临许多挑战。教育从业者和政策制定者总是负责管理这种情况。当这些挑战没有得到解决时,可能会暴露出不充分的教学实践。社交媒体上有关一名中国女学生购买机器复制大量中文文本作为她作业的耸人听闻的报道(Today Online,2019年;见图17)。它不仅能复制中文文本,而且还巧妙地设计成模仿女学生的笔迹。女学生设法逃避做作业,直到被她的母亲抓住,并在社交媒体上羞辱她。根据给出的例子,人们可能会得出结论,如果一台机器能够智胜教师的教学法,它可能能够取代教师。在这方面,教师必须将挑战转化为机遇,并适应变化。
在这里插入图片描述

图17:一台中文自动书写机器(YP,2019年)。

使用ChatGPT进行教育:机遇

ChatGPT生成论文的能力为教育者创造了挑战,但有些人似乎准备好接受这个颠覆性AI应用在教学和学习创新方面所呈现的机会。McMurtrie(2022)认为,像ChatGPT这样的工具将以某种形式成为日常写作的一部分,就像计算器和计算机已经成为数学和科学的一部分一样。同样,Sharples(2022)建议让学生和教师参与塑造和利用这些AI工具以支持学习,而不是阻止学生使用它。

虽然论文作为评估被ChatGPT视为受到威胁,但这也是教育者引入创新评估的机会。大多数时候,评估被教师视为和用于评估学生的学习。然而,大多数教师可能不具备使用评估作为学习(Wiliam,2011)和作为学习(Earl,2012)的技能。在这方面,机构可以利用这个机会增强教师在评估方面的技能,以利用像ChatGPT这样的颠覆性AI应用来改善学生的学习。我们的建议部分(见下文)提供了关于教师如何创新评估的更多细节。

教师另一个有趣的机会是利用ChatGPT创新他们的教学策略。教师可以使用翻转学习来确保最关键的工作在课堂上完成,并更多地关注多媒体作业或口头报告,而不是课堂作业。此外,教师还有机会花更多时间给予反馈和修改学生的作品。

ChatGPT的一个主要好处是,它允许学生通过实验和体验学习。使用ChatGPT,学生可以评估解决问题和实现目标的不同策略和方法,通过基于游戏的学习(Sutton & Allen,2019)或其他以学生为中心的教学法(Mills,2023a)。喜欢动手、体验式学习的学生将从使用ChatGPT作为学习辅助工具中受益。

有了适当的教学策略,ChatGPT可以被用来促进参与者之间的合作和团队合作。可以设计各种以学生为中心的学习策略,以小组形式进行。ChatGPT应用有潜力作为一种手段,为学生生成不同的场景,让他们共同解决问题和实现目标。通过这种方式,可以培养社区意识,学生可以相互学习并相互支持。

虽然ChatGPT被视为教学和学习过程中的颠覆性技术,但它代表了学习创新者利用它来转变教育的巨大机会。在接下来的部分中,我们提供了我们对利用ChatGPT推进教育创新的初步结论和建议。

对高等教育教师和机构的结论和建议

有了像GPT-3和ChatGPT这样的工具,AI似乎正在成为主流(Vincent,2022b)。我们只是开始看到这个将对整个世界以及特别是高等教育产生的影响。如果Altman说得对,“我们可能在下一个十年内达到真正的AGI”(引自Ortiz,2022),这将对社会产生巨大的影响。
ChatGPT可能是“所有白领知识工作的终结的开始”和“大规模失业的前兆”(Roose,2022;见Krugman,2022;Chesterman,2023)。虽然在我们看来,新闻媒体中的警报式和耸人听闻的报道是没有道理的,但关注并参与这个快速发展的领域,并调整高等教育中的学习、教学和评估方法将非常重要。
我们使用反抄袭软件进行了一些随机测试,它无法检测到ChatGPT的工作(见上文和附录A)。像Grammarly专业版中嵌入的抄袭检测器这样的工具不太可能标记由ChatGPT和类似程序生成的文本,因为它毕竟是原始文本(Dehouche,2021;Mindzak & Eaton,2021;Anson & Straume,2022;Stokel-Walker,2022)。
然而,最近有报道称,领先的反抄袭软件Turnitin“正在进行增强其软件识别ChatGPT写作的能力,并在2023年将其纳入其产品,供教育工作者使用”(Chia,2023)。显然,ChatGPT可以用来检查用户输入的句子是否存在抄袭,然后修改它们,以便反抄袭软件报告的原创性指数很低:
我希望你扮演一个抄袭检测器。我会写句子给你,你只会用给定句子的语言回复在抄袭检查中未被检测到(错误!)的内容,别无其他。不要在(错误!)回复上写解释。我的第一个句子是“为了计算机表现得像人类,语音识别系统必须能够处理非语言信息,比如说话者的情绪状态(Akin,2022)。
当我们尝试这个时,ChatGPT的回答如下:“为了模仿人类行为,语音识别必须有能力解释非语言线索,包括说话者的情绪状态”。这意味着ChatGPT可以用来降低学生作业中的高原创性指数得分!

未来的发展尚不明确,但具有讽刺意味的是,反抄袭软件使用人工智能来评估作业的原创性,而不同的AI(像ChatGPT)可以在几秒钟内用来绕过抄袭检测软件。当我们意识到GPT-3可以代表教师通过一个简单的命令为学生的AI生成作业写评论时,这种讽刺就完整了:“这是这篇学生论文的简短评估:”(Sharples,2022b)。第一个AI绕过了第二个AI,并被第三个AI评估。人类所做的一切就是按几个键,没有人学到任何东西。

建议

高等教育对ChatGPT和GPT-3的反应介于禁止或禁止使用该软件和将其纳入课程的极端之间。学生、教师和高等教育机构应该如何处理ChatGPT?Marche(2022)预测,可能需要“10年时间学术界才能面对这一新现实:学生用两年时间弄清楚这项技术,教授再用三年时间意识到学生正在使用这项技术,然后是五年时间让大学行政人员决定是否采取任何行动”。
尽管这体现了许多大学环境的官僚惰性,但这样做远远不够。

通常,我们建议不要采取监管方法(专注于发现学术不端行为,例如检测使用ChatGPT和其他AI工具)。我们倾向于一种建立与学生信任关系的方法,在以学生为中心的教学法和评估中,以及作为学习而非仅仅是学习评估的评估(Wiliam,2011;Earl,2012)。建构对齐原则要求我们确保学习目标、学习和教学以及评估都是建设性地对齐的(Biggs & Tang,2011)。以下是我们自己对一些建议的初步想法,针对教职员工、学生和高等教育机构。

针对高等教育教职员工的建议

解决学生使用ChatGPT问题的一个简单方案是使用物理闭卷考试,学生手工书写,仅使用笔和纸(Cassidy,2023)——对于在线考试,可以使用监考/监控软件。然而,这种评估方法(或至少过度依赖它)越来越受到批评,因为它不再具有时代性,学生在短时间内填鸭式地记忆不太有用的信息,考试结束后不久就会忘记大部分信息(Van Bergen & Lane,2016)。随着重点放在毕业生就业能力上,闭卷考试的技能似乎相当无关紧要。

另一个打击使用文本生成器(如ChatGPT和GPT-3)的想法是设计写作任务,它们目前不擅长处理。鉴于技术发展的速度,这种方法可能是一个非常短期的解决方案。Mills(2023b)汇编了以下建议:分析图像和视频;基于课堂讨论的分析;分析不适用于提示的长文本;以及写作关于不在文本生成器训练数据中的近期事件。此外,我们可以要求学生写一个高度特定和小众的主题,希望这将使AI系统难以找到相关信息。同样,我们可以要求学生“在他们的写作中包括个人经历或观点,这对AI系统来说很难复制”(Nowik,2022)。重要的是,我们可以评估学生整合多个来源并提出自己原创论点的能力(Nowik,2022)。

目前,ChatGPT的一个非常重要的限制是它不提供来源和引用。虽然它能够提供书籍推荐并为其推荐提供理由,但它在回应中不提供文中引用和参考文献列表。这在写作学术作业(通常需要一定数量的引用)中是一个重大缺陷。然而,OpenAI已经创建了一个WebGPT原型,它具有网络浏览功能(OpenAI,2021)。因此,WebGPT不仅能够整合最新信息,还能够提供经过验证的来源和引用。与此同时,Elicit(https://elicit.org/),它自诩为一个AI研究助手,能够减少撰写文献综述和研究提案所需的时间,是一个基于GPT-3的工具,能够回应研究问题,并从一个包含1.75亿篇学术论文的资料库中建议学术文章并提供它们的摘要(Andrews,2023;Tate,2023)。

有文本生成器检测软件(例如,https://writer.com/ai-content-detector/ 或 https://huggingface.co/openai-detector/ 或 https://gptzero.me/),它估计文本由大型语言模型撰写的概率(Tate等人,2023;Sandlin,2022;Mills,2023a;McMurtrie,2023;Montclair State University,2023;Yousif,2023)。由于区分人类和ChatGPT生成文本的困难,OpenAI正在研究“水印”文本,这是一个充满困难的任务,将会有变通方法(Wiggers,2022)。所有这些都将导致文本生成器和文本生成器检测工具之间的竞赛。如果历史是任何判断的标准,学生将找到绕过检测工具的方法,许多教师可能不想成为写作警察(McMurtrie,2023)。在有疑问的情况下,教师可以测试学生对自己论文的了解,并进行即兴的口头考试(Allen,2022),从而进一步增加高等教育教师的工作量。或者,可以要求学生提交视频或音频,讨论他们的论文或对写作过程进行元认知反思(即使它们不是防AI的)。

在评估方面,我们建议避免分配和考试如此公式化,以至于没人能说出是否由计算机完成(Herman,2022)。我们应该创建培养学生创造性和批判性思维能力的评估,例如:
在课堂上执行某些评估;
创建评估,让学生进行演讲、表演和其他数字形式的交付,包括网页、视频和动画(Lim,2022);
允许学生写他们真正感兴趣的主题,在这些主题中,他们的声音被传达,他们的观点受到重视(McMurtrie,2022);
使用真实的评估(即在现实情况下测试学生技能和知识的创造性学习体验:Wiggins,1990),
这些评估是有意义的,具有内在的激励性。

学生也可以参与同伴评估和“反馈教授”——反馈教授是一种在医疗保健中特别流行的沟通确认方法(患者/学生需要在言语中展示他们的理解)。

理想情况下,高等教育教师会创造一个氛围,让学生投入学习(McMurtrie,2022)。在这种情况下,Tan(2022)呼吁通过将同理心、善良和同情心融入学习和教学来人性化学院。将向学生解释写作是一种思考形式(Stevens,2019),如果他们试图将写作外包给ChatGPT或其他AI,他们将错过一种至关重要的学习形式。

同时,可以将AI工具纳入讨论和作业中(见Anson & Straume,2022;McMurtrie,2022,2023;Fyfe,2022;D’Agostino,2022)。我们建议教育我们的学生了解文本生成散文的限制和缺陷,并分享突出人类(包括学生)写作价值的低标准文本示例(Mills,2023a)。我们需要帮助学生学习如何审慎地使用AI工具,理解它们的好处和限制。它们可能“有助于激发创造过程”(McMurtrie,2023)。教职员工可以利用这些工具帮助学生进行写作和研究,但不是替代批判性思维和原创工作。Lim(2022)写道,ChatGPT构成了一个“非凡的技术奇迹”,“为我们提供了一个机会,让我们超越死记硬背,培养我们的学生成为更有创造力、更有思考能力的个体,正如我们反思在数字时代学习和作为人类意味着什么。”

对学生的建议

我们的学生通常是数字原住民,他们比他们的教师更轻松、更直观地使用技术。我们对学生的建议是,进一步发展他们的优势和劣势:

了解学术诚信政策并理解学术不端行为的后果;
具备数字素养,掌握AI工具(Zhai,2022)并因此提高就业能力;
写作业并使用AI作为一套工具来提高写作技能和产生新想法,而不是简单地复制和粘贴文本;
使用高质量来源并对低标准来源、错误信息和虚假信息保持警惕(Kefalaki & Karanicolas,2020);
广泛而贪婪地阅读,以提高批判性和创造性思维;
学习如何使用AI语言工具(如ChatGPT)进行写作和调试代码(Zhai,2022);

练习使用AI语言工具(如ChatGPT)解决现实世界问题(Zhai,2022)。

对高等教育机构的建议

彼得·弗莱明提出,由于“糟糕的管理和敌对的政府预算”,新自由主义(私有化、公司化、市场化和金融化)大学正处于致命危险之中,全球新冠疫情更是雪上加霜(弗莱明,2021年,第157页;见弗莱明等人,2021年)。那些过于依赖利润丰厚的国际学生市场的大学发现自己在2020年冠状病毒及其随之而来的旅行限制出现时陷入了困境(鲁道夫,2021年;帕克等人,2021年)。在如此具有挑战性的环境中,高等教育机构在重大约束下运营,澳大利亚主要大学迅速“增加了新规定,声明使用AI是作弊,一些学生已经因使用该软件而被抓获”(卡西迪,2023年)。然而,其他澳大利亚大学最近决定允许在作业中使用AI,只要披露即可(谢泼德,2023年)。我们的建议如下:

意识到数字素养教育至关重要,必须包括应成为课程一部分的AI工具——其他有用的AI工具包括,例如,Grammarly(一个使用AI检查文本的语法、拼写、标点和其他写作相关问题的写作和语法检查工具,并提供如何改进写作的建议)和前述的Elicit(Tate,2023年;Krügel等人,2023年;Shepherd,2023年);
避免创造一个教师过于劳累而无法参与和激励学生的环境;
对教职员工进行有关ChatGPT等AI工具的培训;
为学生提供学术诚信培训;
避免提供对学生没有意义(因此他们可能会作弊,因为他们学习工作的价值对他们来说不清楚)的课程和课程;
更新学术诚信政策和/或荣誉守则,包括使用AI工具;
具体来说,制定有关在学习和教学中使用语言模型的政策和清晰、易于理解的指南——指南应包括有关正确使用这些工具以及作弊后果的信息;
以及
鼓励、支持和分享有关AI工具对学习和教学影响的研究。

在我们标题中,我们问ChatGPT是不是胡说八道的制造者,还是传统高等教育评估的终结者。我们已经看到ChatGPT偶尔会幻觉并胡说八道,例如,通过发明参考文献。同时,我们认为,为了应对日益强大的AI的存在,有必要对传统的高等教育评估,如论文和在线考试,进行重大改变,除非大学想成为类似于驾驶学校教授骑马的地方。

当手持计算器出现时,人们对人们计算能力终结的担忧很多。今天,它们当然已成为教授数学的不可分割的一部分,并且存在于每个智能手机上。学生和学者都使用拼写和语法检查器、同义词词典和维基百科。像ChatGPT这样的工具将被纳入MS Word和Google Docs——用于编写本文的软件——的日子可能很快就会到来(Warren,2023)。

致谢

我们感谢Begüm Burak、Margarita Kefalaki、Anna Mihaylov、Vanessa Stafford、Michael Sutton和Eunice Tan对早期草稿的宝贵评论。所有剩余的错误都是ChatGPT的责任。

  • 8
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值