读论文,第十六天:FrownOnError: Interrupting Responses from Smart Speakers by Facial Expressions

在与智能扬声器的对话中,对用户要求的误解会导致错误的反应。我们提出了FrownOnError,一种新的交互技术,允许用户通过有意但自然的面部表情来中断反应。这种方法利用了人性,即当我们收到意外的反应时,面部表情会改变。我们进行了第一次用户研究(N=12),以了解用户对正确和不正确反应的直观反应。我们的研究结果显示,两种情况下用户面部表情的出现频率和强度存在显著差异,皱眉和扬起眉毛操作直观,易于控制。我们的第二项用户研究(N=16)评估了frownerror的用户体验和中断效率,第三项用户研究(N=12)探索了中断后合适的对话恢复策略。我们的结果表明,FrownOnError可以被准确地检测到(精度:97.4%,召回率:97.6%),与唤醒单词和按钮按下的基线方法相比,提供了最及时的中断,并被认为是最直观和最容易被用户执行的方法。

对比实验

实验一

对FrownOnError的直观反应我们进行了用户研究,以了解用户在对话过程中对错误反应的直观反应,从中我们可以选择与用户直觉一致的典型表达来触发中断。我们邀请用户与一个智能扬声器交谈,它在Wizard-ofoz(WoZ)设置下给出正确的反应或错误的反应。我们记录了用户的面部表情,并基于FACS对结果进行了注释。然后,我们比较了用户听到两种回答时的差异。

我们收集了12个用户×20任务=240视频记录。10个被设计为错误的任务被参与者标记为“不确定”,我们在接下来的分析中排除了这些记录。
26个被设计为错误的任务被标记为“正确”,9个被设计为正确的任务被标记为“错误”。最后,我们有135条记录被认为是正确的,95条记录被认为是错误的。我们使用了一个面部行为分析工具包(OpenFace[6])来分析面部表情。我们还进行人工注释。从下到上,我们首先分析了两种条件下的差异,这是单个肌肉或肌肉组的基本动作[18],然后我们提取了典型的面部表情,出现更频繁,更明显的用户听到错误的反应。

我们使用OpenFace工具包来提取视频记录的每一帧(30帧/秒)中17个动作单元的存在(动作单元是否出现)和强度(信号的强度)。我们取每个用户的视频分数(0或1)和强度分数(0-5)的平均值。然后我们对平均数据进行Wilcoxon符号秩检验。
结果表明,当反应错误时,“眉毛下”(AU4)和“上唇提升器”(AU10)出现的频率显著升高(Z=-2.75,p<0.01;Z=-2.12,p<0.05)。[34]认为,AU4与皱眉的表达有关,而AU10与鼻子皱褶的作用有关。在强度结果方面,当反应被认为是错误的时,AU10显著更高强度(Z=-2.20,p<0.05)和“唇形Connerpuller”(AU12)的强度略有显著升高(Z=-1.88,p<0.1)。AU12与口腔的运动有关。出乎意料的是,工具包的结果只显示AU4和AU10出现得更频繁,而AU10对错误的反应明显更强。然而,我们注意到用户脸上有许多其他明显的信号,表明对反应的混乱。这是因为显著的面部表情变化只出现在所有错误病例的一个子集中。在其他情况下,用户的面部行为与正确的情况相似,导致动作单位的频率和强度难以区分。所以将所有正确的案例与所有错误的案例进行比较,会忽略面部表情的变化,掩盖其他典型的面部表情。所以我们决定在人类法官的帮助下提取包含明显表达变化的子集。

在本研究中,我们关注用户在听到错误反应时的直觉反应。与听到正确的反应相比,当反应错误时,用户的面部表情有显著差异。这种差异可以通过面部行为分析工具包和人类判断来检测到。我们在两种条件下提取了频率和强度显著更高的动作单元。我们选择了两种典型的面部表情,它们与用户的直觉一致,也易于执行,并决定使用它们来触发中断。接下来,我们实现了一个对所选表达式的实时检测算法,评估了FrownOnError的用户体验和检测性能,并探索了适当的中断恢复策略。

实验二

在本研究中,我们将FrownOnError与其他中断技术进行了比较,以评估其效率和可用性。我们选择了两种广泛使用的中断技术,唤醒词和按钮按下(例如,两者都由谷歌Home[3],AmazonEcho[1]支持)作为基线。我们还包括了不支持中断的情况。以中断时间和主观评分作为指标。

我们比较了三种中断技术和在本研究中没有中断的情况。一旦用户注意到来自智能音箱的响应是不正确的,她就使用了一种技术来中断它。
对这些技术的说明如下:

  • FrownOnError:用户皱眉或扬起两条眉毛来触发中断。智能扬声器上的摄像头捕捉到用户的面部图像,我们的算法基于这些图像实时检测表情。
  • 唤醒词:用户说“嗨,White,这是错误的”来触发中断。一旦实验者听到“嗨,怀特”,他就按下一个键打断了谈话。
  • 按下按钮:用户按下智能音箱顶部的按钮来触发中断。该按钮连接到笔记本电脑,按下它会触发键盘事件进行检测。
  • 无中断:用户必须等到响应完成,并向实验者报告错误。

我们进行了一项独立研究(包括无中断)。对于每一种技术,用户都要与智能音箱进行10次一轮对话。该研究总共包括四个阶段。
对于这五种误解的错误类型,我们分别设计了两种一轮对话。两个对话中的请求都可以通过一个正确的响应或一个错误的响应来响应。在研究过程中,一个对话被随机选择来给出正确的回答,而另一个对话则给出了错误的回答。我们特别设计了这两个对话的错误响应,使错误发生在同一个地方,从而不会影响用户的反应时间。例如,有两个请求可以是“请提醒我今晚8点在门口接快递员。”还有“请提醒我明天9点给妈妈打电话”。对他们的错误回答是“提醒集:明天8点,在门口接快递员”和“提醒集:今晚9点,打电话给妈妈”。两个错误的回答都有槽替换误解错误,错误发生在句子的同一位置。
我们计算了响应开始播放后的平均中断时间,作为记录错误效率的衡量标准。我们还通过问卷调查,从四个方面收集了参与者的及时性、容易性、自然性和中断控制感的主观反馈。所有的问题都采用李克特7分量表(1:非常不同意,7:非常同意)。用户没有对无中断评分的容易性或自然性进行评分。对于错误错误,我们还计算了一旦发生后向实验者报告的假阳性和假阴性的数量。
在这里插入图片描述
所有用户都已成功检测到所有错误的响应。我们收集了16个用户的×4技术,×5个不正确的响应,=320中断。我们用事后t检验对中断时间进行重复测量方差分析,用事后Wilcoxon符号秩检验对主观得分进行弗里德曼检验。

三种中断技术的中断时间数据均满足正态分布假设(夏皮罗-威尔克检验:W(16)=0.93、0.91、0.94;p=0.21、0.12、0.40)。RM-anova结果显示,中断技术是影响中断时间的一个重要因素(F2,30=18.57,p<0.01)。事后配对t检验显示,frown错误(AVG=4.89秒,STD=0.18秒)明显快于按下按钮(AVG=5.87秒,STD=0.28秒;p<0.01)和唤醒词(AVG=6.39秒,STD=0.22秒;p<0.01)。按下按钮比唤醒词的方法要快得多(p<0.05)。FrownOnError的动作幅度比把手举到智能音箱的顶部(按下按钮)要小得多,而且比说一个句子(唤醒词)所花的时间要少。弗里德曼检验表明,中断技术是影响时效性的一个重要因素(X2(2,16)=19.75,p<0.01)。事后Wilcoxon测试显示,用户认为争吵错误明显比按下按钮更及时(Z=2.73,p<0.01),按下按钮明显比唤醒词更及时(Z=-2.18,p<0.05)。

总体结果如图6的右侧所示。弗里德曼试验表明,中断技术对简易性(X2(2,16)=17.06,p<0.01)、直觉性(X2(2,16)=16.42,p<0.01)和控制感(X2(2,16)=7.75,p<0.05)有显著影响。事后测试表明,错误比唤醒词(Z=-2.88,3.03;p<0.01)和按下按钮(Z=-3.21,3.10;p<0.01)更直观、更容易中断。此外,事后测试表明,按键比唤醒词(Z=-2.43,p<0.05)和错误(Z=-3.07,p<0.01)提供更强的控制感。
用户在及时性(AVG=1.13)和控制感(AVG=1.00)上的评分很低,这表明他们认为交互技术是必要的。根据主观得分和用户的评论,皱错误执行简单、直观、及时。然而,少数用户对争吵错误的识别结果感到不确定,导致争吵错误的控制感得分低于按下按钮。
实时假阳性率为6.25%(出现在5/80个任务中),假阴性率为5.00%(4/80个任务中)。由于任务的数量有限,我们在研究3中进一步评估了检测性能。

据评估,FrownOnError提供了最及时的中断,这减少了用户的等待时间,并产生了更好的体验。这一特性也可能有利于错误检测,因为中断力矩和响应中的误差位置之间的联系更强。例如,当用户在响应中听到“er”时,算法可以检查时间参数是否错误。
一些参与者指出,经过几次成功的尝试后,争吵错误的不确定性减少了。这表明,一些训练和长期使用的争吵的错误可能会增加控制感。用户认为按下按钮是最确定的技术,然而,他们也指出,提高手臂到智能音箱的顶部是要求。一些用户把手放在智能音箱周围,以便更快地按下按钮。因此,他们提高了这种技术的较低分数。对于唤醒词法,所有的中断都被实验者成功检测到,但用户对控制感的评分仍然低于按下按钮。这可能是因为他们以前在现实生活中醒来失败的经历。

值得注意的是,在这项研究中,一个人类实验人员实现了对唤醒词的检测。这是因为它提供了一个持续的准确和及时的检测,并可以避免自动检测可能引入的潜在方差。在未来,我们将把真正的智能音箱上的未来Error与唤醒词方法进行比较,以获得更真实的比较结果。总的来说,我们的研究结果验证了争吵和错误的可用性。

实验三

FrownOnError可以用来中断错误的响应,但是,需要一个恢复过程来使中断后的对话回到正轨。在本研究中,我们探索了合适的联合使用的恢复策略。此外,我们还想在更多的任务中评估错误的检测性能。我们邀请用户与智能音箱进行对话,中断不正确的回答,并体验不同的恢复策略。我们记录了不同恢复策略的假阳性/阴性的频率和用户的主观得分。
我们以独立因素作为错误中断后的恢复策略进行了被试内研究。在本实验中,我们选择了四种典型的恢复策略[52,11]。
对策略的解释如下:

  • FrownOnError:智能扬声器与用户确认错误通过“响应错误吗?”
  • 重复请求:智能扬声器通过“请重复请求”指示用户重复请求。
  • 替代响应:智能扬声器给用户另一个响应,这与最后一个响应不同。
  • 仅中断:智能扬声器只停止持续的响应。

我们总共收集了12个用户×4个策略×10个任务=480个中断。

总的来说,用户成功地执行了480次错误错误(真阳性),出现了13个假阳性和12个假阴性。该检测算法的总体精度为97.36%,平均每用户精度为97.41%(STD=2.14%);总体查全率为97.56%,平均查全率为97.65%(STD=3.10%)。

图7显示了主观得分的总体结果。弗里德曼检验结果表明,恢复策略显著影响恢复的容易性(X2(3,12)=7.77,p<0.05)、恢复的及时性(X2(3,12)=21.36,p<0.01)和继续对话的意愿(X2(3,12)=11.18,p<0.01)。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值