改变世界，改善生活：我从科沃斯扫地机器人X1，看到了AI新的希望

夕小瑶

于 2021-12-11 00:20:24 发布

阅读量2.9k

点赞数 1

文章标签：机器学习人工智能深度学习计算机视觉大数据

本文链接：https://blog.csdn.net/xixiaoyaoww/article/details/121885129

版权

深度学习是当代人工智能的核心，计算机视觉、语音、NLP则是当代人工智能落地的热门应用方向。然而，机器人、智能agent这种看起来更加“人工智能”的话题却在大众视野出现的越来越少，取而代之的热点讨论反而是看似与人工智能关联不是那么直接的“AI赋能搜推广”。

做AI就是做搜推广？那为什么不直接去做搜推广呢？

恐怕这也是进入工业界的AI从业者时不时冒出来的困惑。

说好的“AI改变世界，AI改善生活”呢？

直到笔者近期入手了科沃斯的新品扫拖机器人X1，顿时觉得AI技术就该这样走进人们的生活中，用AI技术去解放人们的双手，让人与机器的交互更加自然。

科沃斯X1传送门

YIKO与对话技术

“OK，YIKO，去打扫卧室！”

这是笔者在得知科沃斯X1内置的对话系统叫“YIKO”时，对YIKO发出的第一条指令。收到YIKO的回复时，顿时觉得对话技术的成熟着实有现实意义！

我们知道，工业界常用的任务完成式对话框架一般包含语音识别（ASR）、自然语言理解（NLU）、对话管理（DM）、自然语言生成（NLG）和语音生成（TTS）模块。如下图所示：

其中，语音识别是系统接收用户信号的第一级模块，语音信号接收的质量、信号处理的质量决定了ASR效果的天花板，尽管在NLP层面对话系统有诸多难点，也是研究热点，但在实际的工业界对话产品中，ASR识别错误却往往更为致命。因此一个商用的对话系统若要体验好，首先要有强大的语音硬件设备和良好的产品设计支撑。

在语音硬件设计层面，科沃斯X1在机身顶部环形位置配置了三颗环形MIC阵列，采用环形麦克风设计——可以更加全方位无死角的拾取用户语音信号，使其具备强大的ASR硬件支撑。

此外，科沃斯X1更是巧妙的结合视觉技术，能够在用户召唤后，让机器人转向主人，更加精确的接收语音指令，甚至完成“来我身边打扫”这类高级指令。此外，科沃斯X1内置的降噪技术、回声消除等技术，也保障了其能够在嘈杂的工作状态下，仍然能实现高达96%的语音唤醒成功率（来自科沃斯实验室测试数据）。

如果说ASR技术是实现流畅对话的可靠性保障，那NLU则是关乎对话系统聪明与否的重要模块。传统的内置语音控制的扫地机器人往往仅能支持固定指令，而科沃斯X1则实现了将指令泛化成众多语言表述的能力，例如无论用户是表达，扫一下，还是打扫，清扫，清洁，干活儿等，YIKO均能准确理解，这便是NLU模块的功劳。

在有了扎实的ASR和NLU基座之后，对话管理模块（DM）则汇聚各方信息和系统状态，扮演了决策中枢的角色。

例如，

“OK，YIKO，到客厅的沙发进行清扫！”

YIKO收到该指令并ASR转成文本后，NLU模块将理解后的指令发送给DM模块，DM结合对家居的理解，配合AI视觉导航，准确找到客厅及位于客厅的沙发的位置，并查询系统位置状态，计算出最优通行路径，进而一方面让TTS模块合成语音告知用户自己“听懂了”，另一方面将路线决策传递给机器人“运动中枢”，机器人到达指定位置后，X1将开始辛勤工作。

对话管理模块的设计强依赖对家居环境的理解，以及目标检测、地图建模等技术模块的协同，科沃斯X1能够有效将用户指令转化为复杂的系统决策，靠的便是这份聪明的对话决策中枢——DM模块，这也是YIKO系统的技术壁垒所在。

YIKO除了可以流畅与用户进行日常清扫的交互，还内置了诸多贴心实用的对话技能。例如：

OK，YIKO，耗材到期了吗？“

——“当前耗材情况良好，请放心使用

“OK，YIKO，来找我。”

——“好的，让我看看你在哪儿，请原地稍等”

“OK，YIKO，你会些啥？”

——我会做的事情可多了，试着对我说“OK，YIKO，播放音乐”，我会开始播放音乐。如果想了解更多，打开App找到更多的语音指令吧。

总之，X1成为家庭的一份子后，我们就不再需要找遥控器，不需要找说明书，不需要下载APP在里面点点点，直接对话就可以跟YIKO进行日常操作了！

这不就是最为自然炫酷的人机交互形态吗？

确实，对话系统不一定非要替代人工客服才叫落地，也不一定非要成为无所不能无所不知的智能助理智能音箱，更不一定能够胜任“虚拟女友”才能叫技术成熟。将目光拉近，若复杂家电内置的对话系统普遍像YIKO一样取代说明书和APP，用最自然的方式满足用户需求，那这标志着人机交互的新时代可能真的来了。

如今主打情感聊天的诸多对话产品内置了很多先进的超大模型，动辄上亿参数。学术前沿更为夸张，似乎模型没个百亿参数都不好意思对外宣传。然而，将场景拉近到现实生活的点滴中，YIKO扎实的将对话技术与扫地机器人场景进行了深度融合，打造出了该场景下扎实的ASR技术、聪明的NLU模块、智慧的DM中枢和逼真有特点的TTS单元，做到了在机器人的召唤、操控、查询等诸多维度上非常高的完成度，其带给笔者的赞叹度可能丝毫不亚于一个拥有百亿参数的复杂聊天机器人。

而这种系统级、业务场景深度定制的优化，或许正是大部分“人工智障”产品所欠缺的。

X1中的视觉技术

桌子、凳子、猫、地毯、玩具、人…无论房间多大，总是少不了各种奇奇怪怪的障碍物。因此一个“机灵”的扫地机器人，一定离不开强大的计算机视觉能力——物体识别与目标检测技术。

经过笔者对科沃斯X1的若干天试用，其对障碍物的识别与避障能力大大超出了笔者的预期。出于好奇，笔者调研了科沃斯发表的目标检测技术相关论文和博客。挖掘出了科沃斯机器人内置的目标检测模型和系统工作流程，如图所示：

众所周知，在目标检测领域，有one-stage和two-stage两种思路，虽然精度方面前者略逊于后者，但前者需要的计算资源开销却远少于后者，更加适合电力敏感的场景。科沃斯正是使用了one-stage的方式进行目标检测建模。

在模型结构方面，科沃斯则沿用了SSD detector的设计思路，但是设计了一个计算量显著减少的轻量特征抽取网络以替换SSD中的VGG backbone。

为了减少计算量，科沃斯设计的轻量级特征抽取网络一方面使用depthwise separable convolutions替换了传统的卷积操作，这种方式仅需要1/9的计算量就可以完成3*3的传统卷积。此外，科沃斯还使用了ReLU6作为激活函数，进一步减少了计算量。还将浅层特征与高层特征进行拼接，有效提升了机器人视野中的小型目标的召回率等。可以说这个改进的模型结构更加契合扫地机器人的低功耗、小型物体召回要求高等特点。

而在bounding box预测阶段，科沃斯同样做了诸多针对扫地机器人的优化工作。例如，借助大量的场景数据积累，科沃斯借助遗传算法为不同的物体类别学习了不同数量和大小的bounding box，从而可以有效召回更多的正样本，避免在训练阶段遭遇验证的正负比不均衡问题。下图是优化前后的大小物体的召回数量对比，可以说非常显著了

在loss层面，科沃斯还在focal loss的基础上，对物体位置引入了weighting策略，从而引导模型对位置相近的物体给予更多的注意力，这也更加贴合机器人实际场景的目标检测特点和难点。

此外，科沃斯还首次突破壁垒，将AIVI视觉识别与3D检测融合，进一步提升了避障精度。

简单来说，摄像头组件虽然对于物体识别来说基本够用，但对于深度探测方面则表现不佳。对于以上案例，机器人若想走出一个“不知道什么东西”的巨大障碍物的包裹，显然需要对障碍物的距离信息有足够精确的把握，这样在机器人偶然转动到出口方向时，才会以比较高的置信度将该方向判别为“正确的发力方向”。

尽管原理清晰，但毕竟深度探测与摄像头属于两个通道的信息，要将双通道信息做到合理的融合和联合决策，同样是一个颇具挑战的事情。除了必要的算法支撑外，还需要工程层面对现实世界的大量Corner case有较为充分的挖掘和建模，这是极端情况下不掉链子的重要保障。