The AI Teacher Test: Measuring the Pedagogical Ability of Blender and GPT-3 in Educational Dialogues

题目

AI 教师测试:衡量 Blender 和 GPT-3 在教育对话中的教学能力

在这里插入图片描述

论文地址:https://arxiv.org/abs/2205.07540

摘要

    我们如何测试最先进的生成模型(例如 Blender 和 GPT-3)是否是优秀的 AI 教师,能够在教育对话中回复学生?设计 AI 教师测试具有挑战性:尽管评估方法非常必要,但目前还没有现成的解决方案来衡量教学能力。本文报告了对 AI 教师测试的首次尝试。我们围绕以下见解构建了一个解决方案:您可以在现实世界的对话中与人类教师并行运行对话代理,模拟不同的代理如何响应学生,并从三个能力方面比较这些对应响应:像老师一样说话、理解学生、帮助学生。我们的方法建立在教育中比较判断的可靠性之上,并使用概率模型和贝叶斯抽样来推断教学能力的估计值。我们发现,尽管对话代理(尤其是 Blender)在对话吸收方面表现良好,但在几个教学维度上,它们明显比真正的老师差,尤其是在帮助性方面(Blender:∆ 能力 = −0:75;GPT-3:∆ 能力 = −0:93)。

    对话代理(或聊天机器人)为教育提供了有希望的机会。它们可以扮演各种角色(例如智能导师和服务型助手),并追求不同的目标(例如,提高学生技能、提高学生积极性和提高教学效率)。在教育聊天机器人的所有这些不同职业中,最常见的是人工智能教师,帮助学生提高技能并提供更多的练习机会。一些最近的荟萃分析甚至报告了聊天机器人对技能提高的显著影响,例如在语言学习方面。更重要的是,人工智能和自然语言处理的最新进展导致了基于更强大的生成语言模型的对话代理的发展。例如,Blender 是一款最先进的开放域聊天机器人,经过训练可以融合诸如同理心和知识渊博等技能,这些无疑是优秀人工智能教师的重要特征。此外,目前自然语言生成领域最先进的模型是 GPT-3 ,这是一个拥有 175B 参数的模型,能够同时处理不同的语言生成技能(例如对话)。GPT-3 的惊人能力在于,它仅通过查看描述手头任务的简短提示(例如,以下是与 AI 助手的对话),就可以通过少量上下文学习来执行这些技能。诸如 GPT-3 之类的新兴模型被描述为基础模型,因为它们是“通过适应性构建许多特定任务模型的共同基础”。尽管有这些有希望的机会,但使用强大的生成模型作为下游任务的基础也带来了一些关键挑战。特别是在教育领域,确定这个基础是坚实的还是脆弱的非常重要。Bommasani 等人 强调,如果我们想将这些模型作为 AI 教师付诸实践,必须确定它们是否能够 (a) 像老师一样与学生交谈,(b) 理解学生,以及 © 帮助学生提高理解力。因此,迫切需要建立良好的 AI 教师评估方法。这是一个难题,因为没有现成的通用解决方案来衡量教学能力和有效性。因此,我们接受了设计 AI 教师测试的挑战并进行了一项试点研究。我们在语言和数学教育对话中将 Blender 和 GPT-3 与人类教师并行运行,观察它们如何回应学生,并在教学能力方面比较这些对应方的回应。这项工作的主要贡献如下:

  • 我们提出了 AI 教师测试挑战。
  • 我们实施了人机交互成对比较测试,作为 AI 教师测试的首次尝试。
  • 我们的结果定量地表明,尽管对话代理(尤其是 Blender 和 GPT-3)在对话吸收方面表现良好,但在教学能力方面仍远远落后于人类教师。

    我们的解决方案有几个优势:(1)它利用了教育中比较判断的可靠性,(2)它采用了贝叶斯抽样方法,让我们能够将能力分数归因于教师反应,同时确保正态性并让我们的估计可信,(3)它产生的分数和排名可用于开发自主方法。我们开源我们的工作、代码和数据。

相关工作

     AI 教师测试挑战考虑以下场景,如图 1 所示。两个代理(一个学生和一个老师)正在教育环境中互动。学生正在努力提高给定领域(例如英语)中的特定技能(例如使用短语动词)。老师可以是人类代理,也可以是帮助学生提高这项技能的人工智能代理。学生和老师轮流进行,从而形成一系列学生 - 老师对话对。这种师生对话是开放式的:对于给定的学生话语,我们可以想象教师代理会以多种方式做出回应。例如,图 1 显示了对学生话语的三种可能答复:教师的实际答复和由最新语言模型自动生成的两个完成答复。很明显,在可能的答复空间中,并非所有答复都同样可取。有些答复可能更符合教师的特点,有些答复可能更多地借鉴了学生的话语,有些答复可能更有帮助。在这种情况下,我们对以下挑战感兴趣:给定一个可能的答复空间(无论是人工的还是人工生成的),从教学能力的角度评估答复,并估计相对于其他答复的分数。
在这里插入图片描述

     要求我们认为,一个好的 AI 教师测试至少应该考虑以下方面。首先,测试应该能够在上下文中评估教师代理的响应。测试至少应该考虑学生之前的话语。此外,测试还可以考虑整个之前的对话和周围的教育环境。其次,测试应该能够根据几种教学能力对代理的响应进行评分。根据 Bommasani 等人的观点,我们认为测试应该考虑以下三种能力:代理是否可以像老师一样说话、理解学生以及帮助学生。最后,测试还应该能够考虑其他可能性(可能更好或更差),并根据这些可能性对教师的回答进行排名。通过这种方式,测试还可以用来建议一种或多种可以增强响应的方法,以达到上述三种能力。不幸的是,评估自动生成的语言和对话代理的标准方法不符合我们的要求。例如,困惑度衡量生成模型从其概率分布中抽取给定响应的能力。但是,它没有考虑前面的话语(要求 #1)。其他指标(如 BLEU 和 F1 分数)衡量生成的响应与正确响应之间的 n-gram 重叠。通过相反,我们的测试是开放式的(见上文),并不预设正确的反应。最近,Pillutla 等人 [15] 引入了 MAUVE,这是一种开放式语言生成的评估指标。由于此指标使用 Kullback{Leibler 散度,因此不能用于比较两种特定的语言话语(要求 #3)。最重要的是,这些方法都不符合我们的第二个要求,即根据多种教学能力对代理的反应进行评分。

    我们可以从评估人类教师的先前工作中获得有关衡量教学能力的见解。教育研究中有很多评估教师效能的方法,从教师自我报告和访谈到课堂观察、学生评估调查和学生成绩测试。然而,并非所有这些方法似乎都适用于评估人工智能教师。很明显,通过自我报告和访谈来评估人工智能教师的效能是一件困难的事情。然而,我们可以诉诸对人工智能教师的系统观察、人类评估调查和学生成绩的衡量。其他研究集中于衡量教师语言能力的可能性。例如,Demszky 等人研究了几种确定教师在师生互动中回答学生情况的方法。他们的数据包括 2,246 对师生对话,这些数据来自美国国家教师效能中心的主要研究研究 (NCTE)2 是一项为期三年的数学教学观察。首先,他们收集了人类对对话吸收的评估,这是衡量教师的回答如何很好地扩展学生的话语(例如,通过确认、重新表述、阐述)的指标,如下所示。
学生:七加七等于十四。
老师:好的,所以你加倍了。你先加倍了。好的。十四加八?(吸收率 = 高)除了人类对吸收率的评估外,Demszky 等人还开发了一种自动化方法,可以将吸收率预测为下一个话语分类任务。他们对 BERT 语言模型进行了微调,发现与人类评估存在显着相关性(ρ = :54)。

    这种自动的对话吸收率测量可以作为我们研究的坚实基础。首先,下一个话语分类根据前面的学生话语预测吸收率,因此满足了我们的第一个要求。其次,对话吸收率也以某种方式衡量了说话者是否理解了对话者。如果老师的回答强烈扩展了学生的话语(即吸收率高),则可以推断老师能够理解学生。因此,它衡量了我们第二个要求中针对的三种教学能力之一。最后,因为我们可以对同一句学生话语的不同反应运行预测模型,并比较这些反应的吸收率,所以该指标满足了我们的第三个也是最后一个要求。

方法

    我们的 AI 教师测试作为第 2 节中描述的 AI 教师挑战的可能解决方案,我们采用了以下方法。首先,我们在现实世界的教育对话上运行 Blender 和 GPT-3,并模拟对学生话语的回答。然后,我们付钱给人类评分者,让他们比较几个不同教学维度上的成对回答。最后,我们运行了一个概率模型来计算总分。此外,我们还在我们的数据上运行了 Demszky 等人开发的模型,以便将我们的分数与吸收预测进行比较。
在这里插入图片描述

    本研究使用的两个数据集列于表 1 中。Demszky 等人编制的教育吸收数据集包括从 NCTE 成绩单中抽样的 2,246 对对话(见第 2.2 节)。但完整的对话成绩单尚未公布。Caines 等人编制的师生聊天室语料库 (TSCC) 包括 102 个第二语言教育中的匿名师生对话。每个聊天室都是一节课,老师与学生交谈以进行语言练习并评估学生的英语语言能力。语料库包括 13,215 个轮次,平均每个对话 130 个轮次。每句话都用几个元数据注释,包括对话组织(例如,开场白、结束语、引出、支撑和复习)和教学重点(例如,词汇)。图 1 展示了一位老师的引出、支撑和复习的示例摘录。但值得注意的是,TSCC 对话包括学生或老师的许多连续话语。因此,本研究对数据做了些许调整:同一位说话者的所有连续话语被连接成一个回合,这样每个对话都由交替的对话对组成。因此,数据包括 4,439 对师生对。

    模拟代理响应对于师生对话中的每一对对话,我们都自动生成 AI 老师的响应。我们使用 ParlAI 框架来加载师生对话,对每个学生话语生成响应,并计算几个标准评估指标。在本研究中,我们重点关注两种模型。我们在语言(TSCC)和数学(Uptake)教育对话上运行了几个 Blender 模型(90M、400M、3B、9B 参数)。我们实现了一个新的代理,它向 OpenAI API 发出请求,以便为每个学生的话语获取生成的响应。每个请求都包含一个强制性提示,其中包含 GPT-3 的说明(以下是与老师的对话。老师彬彬有礼、乐于助人、专业、切中主题且事实正确。)、之前的对话历史记录(限制为满足每个请求的最大标记数)和学生的话语。我们从最小(Ada)和最大(Davinci)模型中获得了完成。
在这里插入图片描述

    测量教学能力在收集教育对话中的 AI 教师回答后,我们通过在线调查收集了对教学能力的评估。首先,向参与者提供简短的介绍和同意书。然后,向参与者提供相同的例子,以熟悉手头的任务。在以下比较判断任务(图 2)中,从相关项目池中随机均匀地选择了 15 个项目。每个项目包含三个部分:对话背景(限制为 100 个标记)、两个老师答复的比较以及三个针对教学能力的问题(像老师一样说话、理解学生和帮助学生)。对于每个参与者,从三种可能的组合(老师与 Blender、老师与 GPT-3 或 Blender 与 GPT-3)中随机选择一个成对比较,并随机打乱比较对的顺序。

    项目选择。评估过程中的一个关键挑战是找出那些重要的教师话语来评估。在第 3.1 节中描述的师生对话中,并非所有教师话语都一定相关。事实上,许多对话轮次与任何教育目标都无关,例如开场序列、结束序列和其他闲聊。在 6,685 个符合条件的对话对中,我们只选择了那些老师实际引导和支持学生理解的话语。此外,由单个单词或句子片段组成的简短话语(例如,完美!,耶!)也被排除在外。3 此外,一项有八名评估员参与的试点研究的结果强调,从 Uptake 数据集中获取的对话对很难评估,因为没有信息背景。因此,我们只关注 TSCC 数据集的比较判断任务,仔细筛选语料库中的相关项目和信息对话背景,最终得到 52 个项目的样本。

    参与者。我们从牛津大学开发的众包平台 Prolific Academic 招募了 120 名参与者。参与者经过预先筛选,以确保性别代表性均衡(50% 女性,50% 男性)。研究参与者年龄在 19 至 66 岁之间(男性 = 33,标准差 = 11:3;女性:男性 = 32:4,标准差 = 10:9;男性:男性 = 33:5,标准差 = 11:7),居住在英国(n = 86)或美国(n = 34)。平均而言,参与者的 Prolific 得分非常高,为 99.2%(标准差 = 1:4;女性:男性 = 99:1,标准差 = 1:6;男性:男性 = 99:3,标准差 = 1:3),完成调查需要 18 分钟(标准差 = 11:2;女性:男性 = 18:9,标准差 = 11:1;男性:男性 = 17:3,标准差 = 11:4)。由于这些任务需要相当多的认知参与(阅读对话、阅读不同的回复、比较不同的选项),我们估计调查大约需要 30 分钟。然后,我们使用了默认的 7.50 美元/小时的支付率。参与者根据估计的学习完成时间获得报酬(30 分钟 3.75 美元)。

    一致。评估者对比较判断任务之前给出的示例表现出很高的一致性(图 2)。大多数人同意选项 A(真正的老师回答)更有可能由老师说出来(95%),更了解学生(83%),并且更能帮助学生(86%)异常值检测。为了检测评估者中的潜在异常值,我们确定了那些在配对比较中始终选择选项 A 或 B 的人。这种首位(或“主场优势”)效应是通过估计下述模型中的截距参数 α0 来检测的。但是,我们不是为每个教师回答估计不同的 α 参数(结合所有评估者的分数),而是反转了方法,为每个评估者计算不同的 α 参数(结合评估者评估的所有项目的分数)。当截距周围的可信区间高于或低于零时,评估者被排除在外,这表明他们倾向于选择选项 A(CI 高于零)或选项 B(CI 低于零)。基于这种异常值检测方法,删除了来自七位评估者的数据。剩余数据包括来自 113 位评估者的 4,782 次比较,每对(教师 vs. Blender、教师 vs. GPT-3 或 Blender vs. GPT-3)平均 10.9 次评估。

    贝叶斯 Bradley-Terry 模型。Bradley-Terry 模型 [3] 是一种预测一个或多个成对比较结果的概率模型。考虑 n 个项目(即学生的话语和前面的对话)、每个项目的一组 t 个可能的响应(即老师、Blender、GPT-3)和一组 m 个能力(即像老师一样说话、理解学生、帮助学生)。对于每个项目 l 2 [n] 和每个能力 k 2 [m],我们推断出每个可能的教师响应 i 2 [t] 的潜在参数 αikl。结果 yijkl 是一个独立的伯努利变量,其参数 pijkl 2 [0; 1] 衡量对于项目 l 和能力 k,对于所有 i; j 2 [t] 和 i 6= j,教师响应 i 优于教师响应 j 的可能性。该概率定义为 pijkl := σ (αikl − αjkl) ) log pijkl 1 − pijkl = αikl − αjkl (1) 其中 σ 是逻辑函数 σ(x) = 1 1+e−x 和 αi; αj 分别是衡量 i 和 j 强度的潜在参数。如果出现平局(我无法分辨选项),则结果将均匀随机地选取。我们使用了基本 Bradley-Terry 模型的扩展版本,其中包括一个截距参数 α0 2 R,它衡量了“主场”优势。pijkl := σ(α0kl + αikl − αjkl) (2) 如果 α0 > 0,则评估者更有可能在比较中选择第一个元素。如果 α0 = 0,则没有顺序效应。为了推断潜在参数 ~αkl = (α0kl; :::; αtkl),我们采用了贝叶斯方法,从具有非共轭先验分布 α ∼ N (0; 1) 的后验 p(αjy) / p(yjα)p(α) 中抽取样本。我们使用 Stan [19, 16] 计算后验均值和 95% HDI(最高密度区间)可信区间,这些区间来自 4,000 次模拟,使用汉密尔顿蒙特卡洛 (HMC) 抽样[8] 和 NUTS (No-U-Turn Sampler) 算法。对于每次模拟,估计的能力参数用于对每个项目和每个能力的每个响应进行排序。

结果

    对话吸收 我们首先比较人类和人工智能教师反应中的对话吸收,针对第 3.1 节中介绍的两个师生对话数据集。图 3 显示了最小和最大的 Blender 和 GPT-3 模型的预测吸收率,以及与实际教师的回答相比。结果表明,最大的 Blender 模型(具有 9B 个参数)在语言(TSCC)和数学(Uptake)教育对话中的表现都优于其他所有模型。这表明 Blender 倾向于生成比学生话语更好的后续话语。
在这里插入图片描述

    图 4 放大了数学教育对话中的 AI 教师回答。进行了多项相关性分析,以检查生成性能(困惑度和 F1 分数)与 Demszky 等人 [6] 收集的教师吸收率的人工注释之间的关联。困惑度(越低越好)表示模型从概率分布生成语言话语的能力,而 F1 分数(越高越好)表示生成的回答与教师回答之间的单元重叠。用 Pearson 积矩相关系数衡量,模型困惑度与教师真实接受度之间存在负相关、统计学显著且较大的相关性,r = −0.31,95% CI [-0.34, -0.26],t(1996) = −14.32,p < :001。同样,F1 单元重叠与教师真实接受度之间存在正相关、统计学显著且较小的相关性,r = 0.16,95% CI [0.12, 0.20],t(1996) = 7.35,p < :001。换句话说,在实际教师也被认为给出了更好的反应(更多的接受度)的情况下,Blender 往往会产生更好的反应。此外,在所有 Blender 和 GPT-3 模型中都观察到了生成表现和教师吸收之间的这种关联(见图 4)。这些发现表明,对于人类和人工智能教师来说,某些学生的话语可能更容易回复。
在这里插入图片描述

    我们的测试:教学能力现在,我们将所有以下分析重点放在选择在教学能力方面进行比较的教师回答上。图 5 显示了在三个教学维度上对学生话语的每个可能响应的 α 预期值(和相关排名)的箱线图。该图还将这些分数与对话吸收的预测进行了比较。在对话吸收方面,结果显示人类和人工智能教师之间没有显着差异,如箱线图中重叠的凹口所示。然而,在教学能力方面,单因素方差分析显示,人类教师和人工智能教师在上述三个维度上存在统计学上的显著差异,分别为 F(2; 144) = 13:1,p < :001,F(2; 144) = 11:8,p < :001,F(2; 144) = 22:3,p < :001。4 Tukey 的 HSD 事后多重比较检验表明,与实际教师相比,平均值 4A Shapiro-Wilk 检验表明,三个教学能力维度均未违反正态性假设
在这里插入图片描述
    在像老师一样说话(∆ alpha = −0:60, [95CI −0:93, −0:26], p < :001)、理解学生(∆ alpha = −0:55, [95CI −0:90, −0:20], p < :001)和帮助学生(∆ alpha = −0:75, [95CI −1:10, −0:40], p < :001)方面,Blender 的能力明显较低。同样,与实际老师相比,GPT-3 在像老师一样说话(∆ alpha = −0:67,[95CI −1:00,−0:33],p < :001)、理解学生(∆ alpha = −0:67,[95CI −1:02,−0:32],p < :001)和帮助学生(∆ alpha = −0:93,[95CI −1:28,−0:58],p < :001)方面的平均能力明显较低。至于 Blender 和 GPT-3,在像老师一样说话(∆ alpha = 0:071,p = :41)方面,两者之间没有统计学上的显着差异。总体而言,Blender 在理解(∆ alpha = +0:12)和帮助(∆ alpha = +0:18)学生方面似乎更好,但这些差异并不显着(分别为 p = :47 和 p = :53)。
在这里插入图片描述

    表 2 显示,我们对教学能力的估计与对话吸收率显著相关。有趣的是,相关性最高的是理解学生的能力。这个结果并不令人惊讶:如前文第 2.2 节所述,吸收率也以某种方式衡量了说话者是否理解对话者。最后,我们逐项检查了人类和人工智能教师的教学能力。表 3 显示了 α 的预期值为正的教师答复百分比。对于 69-78% 的对话环境,实际教师的回答得到了积极评价,因此排名很高。特别是对于帮助性,78% 的人类教师回答得到了积极评价。在帮助性估计中,确定性百分比也更高(14%)。然而,在许多情况下(22-31% 的对话环境)实际教师的回答得到了负面评价,也有很多情况(33-45%)人工生成的回答得到了积极评价。下面的例子说明了 Blender 生成的响应比
在这里插入图片描述

总结性讨论

    最先进的对话代理(例如 Blender 和 GPT-3)在教育对话中回复学生的能力如何?在吸收和扩展学生的话语方面,Blender 脱颖而出,表现优于实际老师和 GPT-3。根据我们的 AI 教师测试结果,我们得出了类似的结论。虽然我们的测试并不能证实 Blender 实际上可以胜过人类老师,但在理解学生方面,它与人类的表现差距仍然较小。Blender 在这个特定的教学维度上的得分明显更高,积极评价的回应比例更高。这些发现可能归因于 Blender 的特定训练目标,即混合技能谈话。通过学习更具同理心,Blender 可能顺便学会了更多地吸收对话者并更多地理解对话者。相比之下,我们的 AI 教师测试结果表明,尽管 GPT-3 已被证明具有少量情境学习能力,但在所有测量能力上,其表现都明显差于 Blender,且明显差于真人教师。

    此外,在帮助学生方面,Blender 和 GPT-3 都远远落后于人类。我们的 AI 教师测试的另一个发现是,并非所有人类教师的回答都一定会得到积极评价。尽管 AI 教师的回答在教学能力方面普遍不足,但我们仍然可以利用生成的回答作为抽样和推荐可能更好的回答的手段。本文提出的解决方案当然不是一个完美的测试,但它是建立急需的评估方法的第一步。
在这里插入图片描述

  • 37
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值