阿里全面进军IoT,语音将是人与IoT最自然的交互方式

阿里妹导读:近期,2018国际智能科技峰会开幕式暨主论坛在深圳举行。本次峰会邀请了中国工程院院士高文、院士徐扬生、院士丁文华、图灵奖获得者John E.Hopcroft等多位重量嘉宾参会并做主题演讲。

阿里巴巴达摩院机器智能技术实验室语音交互首席科学家鄢志杰受邀在大会做《IoT时代语音交互智能》主题发言,以下为演讲全文。

鄢志杰在大会做主题发言

IoT:阿里巴巴新的主赛道

今天很高兴有这个机会能够来介绍一下我们自己的一些工作。为什么在一个人工智能的场合讲IoT,第一深圳是IoT产业非常活跃的城市;第二,同样是在深圳,阿里云在深圳的云栖大会上发布了新的战略,阿里巴巴将会全面进军IoT,IoT将成为阿里继电商、金融、物流、云计算之后一条全新的主赛道。前面的像天猫淘宝这样的电商,像蚂蚁这样的金融,还有像菜鸟的物流和阿里云的云计算对阿里集团是什么地位,那么今天把IoT提到这么高的地位上来讲,显然是表达了阿里对IoT的高度重视。

阿里希望做IoT的基础设施,在五年内,通过云上的基础设施连接100亿的设备。我们的理解有三点:计算是心脏,AI是大脑,IoT是神经。为什么这么说呢?其实这也很符合阿里,尤其阿里云一路以来发展的脉络。阿里云从做计算、做存储开始,做传统的云计算,一直到近些年不断的去深入做AI技术,不管是我们计算机视觉的技术,语音交互的技术,NLP的技术,还有基础的机器学习、运筹决策等基础技术,如何使AI技术通过IoT神经触达更多的用户,产生数据及更大的价值,这就是一路以来非常清晰的发展脉络。

语音是人最自然的与IoT交互的方式

既然讲要连接万物,万物互联,那首先要解决人跟设备怎么去连接的问题。我作为一个做语音交互的实践者,我觉得,非常自信地就可以讲说语音就是人最自然的与IoT交互的方式。原因是什么呢?因为人与人之间交互也一样,也是用语音作为最自然的方式。人和机器,我们也希望能做到这么自然流畅的交互。语音交互是,即使是你在开着车,手不方便的时候,不看屏幕,不用触摸屏幕上的任何东西,也能够跟你的车交互。而且随着这么多年技术的发展,确确实实这种交互的体验已经从一个科幻电影——就像《星球大战》第一集拍出来的时候,人能跟机器人做语音交换完全是科幻电影——但是拍最新的续集的时候,到今天,这个东西已经完全成为了一个大众科技,跟一个机器做语音交互,今天已经是完全很容易实现的一件事情了。

做到这一点背后是技术的进步,得益于我们AI的技术在近几年长足的发展,不管在感知的层面还是在认知的层面。回到这个当中的语音交互,今天已经完全的是跨过了“能用”的这么一个基础的门槛,正在向着“好用”的方向来发展,使得这样的技术能够架起一个人机交互到个性化服务的桥梁。

再具体地说,请大家看这张图,右边的部分就是我们所有的在互联网上沉淀的内容和服务,就像我刚刚加入阿里之初觉得也是很赞叹,我们的集团这么多年来一直在深耕这方面,就像在音乐里面我们有虾米音乐,在视频里面我们有我们的优酷土豆,导航有高德的地图和导航,出行上我们有飞猪,购物自然不必讲有天猫淘宝,支付有支付宝,更不用说了。

丰富的IoT端:触达千千万万消费者

当我们有了这么多的互联网的内容和服务以后,接下来一个重要的问题就是怎么能够更多地使得好的内容,好的服务能够触达千千万万的消费者。它的触角就是最左边的IoT的端,无论是最传统的手机还是像现在的IoT设备,像智能音箱还有我们的智能电视,智联网汽车,以及机器人等等,我们希望是通过这些端,把我们在互联网上的内容和服务带给我们的消费者。中间的桥梁和媒介就是自然的人机交互界面,不管是语音的交互,然后计算机视觉的交互,以及这些东西结合起来的多模态交互等等。我们始终就是在拼这张大图,研发中间的技术,然后做这么一个桥梁。

在这张大图下,天猫精灵的智能音箱,非常漂亮的这么一款音箱,前不久刚发布了黑色的小音箱。这个就是阿里集团的人工智能实验室的作品。去年双11的时候,也是一天之内卖了一百万台,到今天一共卖了累计200万台的销量,通过这个端触达到我们的用户。

智联网汽车,阿里跟国内的汽车制造领域的龙头上汽集团,一起去投资成立了斑马网络,做汽车里面的智联网。其中除了地图以外,很重要的是让你在开车手握方向盘不方便的时候,还能跟你的车做直接的语音交互。现在走进4S店,同样的SUV,同样的价位,它的发动机和变速箱各种参数都是差不多的,但是当你今天走进荣威的4S店,4S店的销售一定会请你坐上这台车,然后展示斑马系统,然后对它用语音说我要看星星,突然之间所有的天窗都会打开,体现出这样的智能。

除了这些以外,导航、点歌、听歌,甚至我们发现真正的用户,很喜欢在车里边开车的时候边玩语音的游戏,其中成语接龙的游戏就是一个例子,有些司机和旁边的副驾一路上就在玩这个东西。我们给一个曾经非常同质化的、一个最大的IoT——汽车,带来了智能的好玩的这些体验。同样的在上汽这个汽车推出以后,越来越多的汽车产业里面的大企业们相继加入了这张大图,包括现在已经公布的标致、雪铁龙跟福特这样的汽车制造商。

在这张大图底下,阿里自己推出了自己的OTT电视盒子,这个叫天猫魔盒,像刚才讲的,既然讲互联网内容和服务,天猫大文娱有优酷这么好的内容,所以需要一个端能够触达消费者,其中一个端就是魔盒。魔盒它是一个可以用语音跟盒子进行交互的IoT终端。因为现在大家知道在家里看电视的老人小孩很多,怎么能够在这种场景下帮助他们来寻找他们想看的东西,这个语音当然是很自然的、很便捷的手段。

除了自己做魔盒以外,阿里也跟行业里做电视的龙头一起成立合资公司,一起把我们的内容、服务,我们的语音技术打包,把刚才的盒子装到电视机里面去。就像我们看到的海尔的人工智能电视。从前一代的摇控器的方式到刚刚在上海家博会发布的下一代的海尔-阿里的第五代人工智能电视,通过远距离的远场语音交互,免唤醒的方式,还融合识别声纹,来识别年龄,过滤对小孩子的不良内容等等这些技术,我们逐步地在家庭娱乐的环境里应用智能语音交互。

不仅限于此,语音交互智能还逐渐地也在向公共服务领域在发展。在去年底的时候,马老师和上海地铁的董事长一起参观了语音售票的概念机。通常在地铁站里面用售票机的就是外地的游客、出差的人士,他们对上海不熟,只知道自己要去哪,不知道要坐哪一条线、在哪一站换乘、在哪一站下。通常在原来就得通过高德,比如说把路线先查好,再去买票。有了这个语音售票机以后,后面对接的就是互联网的数据,高德的数据,你只要对着售票机说出你想要去的地方,所有的路径规划、怎么换乘、哪站下、需要多长时间、需要多少钱买到这张票,一目了然,然后通过支付宝的方式,就可以实现整个的购票的过程。

但说起来这个体验好像很简单,本来就应该是这样的,但是在技术上同样需要解决在地铁站那么嘈杂的公共场合下怎么能够解决一个远距离的语音交互,而且要保持高精度的问题。我们做了像大屏上面绿色的条状的东西,就是一个很大的麦克风阵列。中间这个黑色的东西就是一个光学的摄像头。其实是做了一个多模态的语音交互的这么一个技术,使得在特别嘈杂的环境下,还能够在一定距离以外跟机器做一个远距离的隔空的语音的交互。相信不久的将来这种公共场所的服务机器,尤其做这样的交互的一个服务机器会越来越多的出现在我们的生活当中。

技术创造商业

阿里云很严肃地在布局技术问题,虽然阿里是一家在商业上非常成功的公司,但同时我们希望在技术上去自主掌握在交互这个链条上的核心技术,并且能够随着产品的创新持续地去迭代、去进步。其中一个例子就是说,我们从这个麦克风本身的硬件,这种传感器的硬件技术出发,到麦克风组合起来设计为一个麦克风阵列,到阵列的信号处理,全链路地从最源头开始就找世界顶尖的专家来做这样的技术。

例如说在声学设计方面,大家可能看到过报道,我们就是从做电话通讯的企业去寻找了这样的专家,来和我们做语音技术的人坐到一起,去打造全链路的最好的交互的体验。同时在大家更熟知的语音识别、语音合成、声纹这类技术更不用说了。我们还在阿里云上打造云+端的、工业级的语音的交互系统,跟它相应的定制平台,使得我们可以以这套平台性的东西去很快地适配到一个具体的应用的领域。

但我们不是做那种完全高高在上的研究,怎么能把这些好的研究作为一个可以落地的产品,真正产生它的价值,也是我们特别努力去思考的。在阿里,一个团队中常常会出现说既有偏向于研究的人,又有偏向于落地的人,又有偏向于工程人。当这些人放到一个团队一起做这件事情的时候,它产生的这个化学反应跟它的产品的厚度就会不一样的。

刚才能感受到就是我们从传感器,一直到人工智能芯片方面都开始做自有的研发,无论是通过自研或并购的方式,而且阿里是很严肃的在做一个端上的操作系统叫AliOS,我一直把它评价为是中国最严肃的移动操作系统。还有像刚才上汽跟海尔的例子,就是说怎么能跟行业里的那些龙头的合作伙伴一起去开拓IoT。就像刚才讲的,我们已经有比较强的云端的布局了,怎么能通过这些基础设施能够打通,能够最后成为商业上成功的一个产品,这些方面的市场上面的商业上的布局,想的会比较多。最后当你做一个具体的产品的时候,你仍然要考虑一些非技术之外的因素,像市场的容量,本身的成本,一直到它的定价等等,当你有全链路的能力之后,有这种机会去打磨这些东西,使得达到一个效益最大化。

IoT时代的争论思考

当前IoT的融入生活也总是遇到这样那样的一些争论。例如说我举个例子,在家居环境下,很多争论说我们到底应该有一个中心化的智能设备还是一个去中心化的、分布式的智能终端?或者说我们应该在现阶段就特别明确地强调它是互联网的新入口,还是先从满足大家的指令控制、任务完成型的这种体验入手。或者说做一家商业公司,我们是应该自己做硬件还是采取这种平台型的方式,去跟硬件的龙头企业一起合作做这件事情等。

有一些事情阿里是一定会着力去做的,其实就像是技术本身,刚才讲到的所有这些技术的模块,我们都希望把它做精做深,然后通过某种方式把技术共享出来,让全社会可以使用。在IoT的领域,阿里去做低成本、易复制的IoT的智能化的整体的方案。包括硬件模组和软件。然后当你用上这个模块,接入你的设备以后,很容易就能享有刚才我们讲到的互联网上的那么多的服务的内容,然后统统通过自然交互的模式作为桥梁和纽带。

我们会去打造一些自己标杆的硬件,但是这个是手段,真正目的还是为社会建造基础开放的平台,使各种各样的设备能够很容易接入这个平台,达到五年100亿端的目标和愿景。

好的,今天我的分享就到这里,谢谢大家!

关于新一代人工智能联盟:

新一代人工智能产业技术创新战略联盟(AITISA,简称联盟),联盟在中国科技部指导下,联同科技巨头、知名学府及创业公司发起成立。联盟由潘云鹤院士担任名誉理事长和专家委员会主任,高文院士任联盟理事长,北京大学计算机科学技术系主任黄铁军教授担任秘书长。

中国科学院李未院士、中国工程院柴天佑院士、金东寒院士、李伯虎院士、刘玠院士、吴澄院士、郑南宁院士为联盟专家委员会副主任。

阿里巴巴是该联盟的副理事单位,阿里达摩院机器智能实验室副主任华先胜为组织副理事。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值