题目
AI 教师测试:衡量 Blender 和 GPT-3 在教育对话中的教学能力
论文地址:https://arxiv.org/abs/2205.07540
摘要
我们如何测试最先进的生成模型(例如 Blender 和 GPT-3)是否是优秀的 AI 教师,能够在教育对话中回复学生?设计 AI 教师测试具有挑战性:尽管评估方法非常必要,但目前还没有现成的解决方案来衡量教学能力。本文报告了对 AI 教师测试的首次尝试。我们围绕以下见解构建了一个解决方案:您可以在现实世界的对话中与人类教师并行运行对话代理,模拟不同的代理如何响应学生,并从三个能力方面比较这些对应响应:像老师一样说话、理解学生、帮助学生。我们的方法建立在教育中比较判断的可靠性之上,并使用概率模型和贝叶斯抽样来推断教学能力的估计值。我们发现,尽管对话代理(尤其是 Blender)在对话吸收方面表现良好,但在几个教学维度上,它们明显比真正的老师差,尤其是在帮助性方面(Blender:∆ 能力 = −0:75;GPT-3:∆ 能力 = −0:93)。
对话代理(或聊天机器人)为教育提供了有希望的机会。它们可以扮演各种角色(例如智能导师和服务型助手),并追求不同的目标(例如,提高学生技能、提高学生积极性和提高教学效率)。在教育聊天机器人的所有这些不同职业中,最常见的是人工智能教师,帮助学生提高技能并提供更多的练习机会。一些最近的荟萃分析甚至报告了聊天机器人对技能提高的显著影响,例如在语言学习方面。更重要的是,人工智能和自然语言处理的最新进展导致了基于更强大的生成语言模型的对话代理的发展。例如,Blender 是一款最先进的开放域聊天机器人,经过训练可以融合诸如同理心和知识渊博等技能,这些无疑是优秀人工智能教师的重要特征。此外,目前自然语言生成领域最先进的模型是 GPT-3 ,这是一个拥有 175B 参数的模型,能够同时处理不同的语言生成技能(例如对话)。GPT-3 的惊人能力在于,它仅通过查看描述手头任务的简短提示(例如,以下是与 AI 助手的对话),就可以通过少量上下文学习来执行这些技能。诸如 GPT-3 之类的新兴模型被描述为基础模型,因为它们是“通过适应性构建许多特定任务模型的共同基础”。尽管有这些有希望的机会,但使用强大的生成模型作为下游任务的基础也带来了一些关键挑战。特别是在教育领域,确定这个基础是坚实的还是脆弱的非常重要。Bommasani 等人 强调,如果我们想将这些模型作为 AI 教师付诸实践,必须确定它们是否能够 (a) 像老师一样与学生交谈,(b) 理解学生,以及 © 帮助学生提高理解力。因此,迫切需要建立良好的 AI 教师评估方法。这是一个难题,因为没有现成的通用解决方案来衡量教学能力和有效性。因此,我们接受了设计 AI 教师测试的挑战并进行了一项试点研究。我们在语言和数学教育对话中将 Blender 和 GPT-3 与人类教师并行运行,观察它们如何回应学生,并在教学能力方面比较这些对应方的回应。这项工作的主要贡献如下:
- 我们提出了 AI 教师测试挑战。
- 我们实施了人机交互成对比较测试,作为 AI 教师测试的首次尝试。
- 我们的结果定量地表明,尽管对话代理(尤其是 Blender 和 GPT-3)在对话吸收方面表现良好,但在教学能力方面仍远远落后于人类教师。
我们的解决方案有几个优势:(1)它利用了教育中比较判断的可靠性,(2)它采用了贝叶斯抽样方法,让我们能够将能力分数归因于教师反应,同时确保正态性并让我们的估计可信,(3)它产生的分数和排名可用于开发自主方法。我们开源我们的工作、代码和数据。
相关工作
AI 教师测试挑战考虑以下场景,如图 1 所示。两个代理(一个学生和一个老师)正在教育环境中互动。学生正在努力提高给定领域(例如英语)中的特定技能(例如使用短语动词)。老师可以是人类代理,也可以是帮助学生提高这项技能的人工智能代理。学生和老师轮流进行,从而形成一系列学生 - 老师对话对。这种师生对话是开放式的:对于给定的学生话语,我们可以想象教师代理会以多种方式做出回应。例如,图 1 显示了对学生话语的三种可能答复:教师的实际答复和由最新语言模型自动生成的两个完成答复。很明显,在可能的答复空间中,并非所有答复都同样可取。有些答复可能更符合教师的特点,有些答复可能更多地借鉴了学生的话语,有些答复可能更有帮助。在这种情况下,我们对以下挑战感兴趣:给定一个可能的答复空间(无论是人工的还是人工生成的&#x