深度 | 车载语音群雄并起共争智能座舱新高地

数据堂官方账号

已于 2023-03-31 17:37:54 修改

阅读量921

点赞数

分类专栏：分享文章标签：人工智能语音识别

于 2022-07-21 14:44:58 首次发布

本文链接：https://blog.csdn.net/weixin_44532659/article/details/125910726

版权

分享专栏收录该内容

61 篇文章 5 订阅

订阅专栏

不论是苹果公司iOS系统中的智能语言助手“Siri”，还是微软Windows系统中的“Cortana”，智能语音交互早已融入我们生活之中。随着汽车产业的发展，用户消费形态的改变，自动驾驶、智能座舱、新能源这些概念已经逐渐落地成为现实，智能语音交互与汽车之间也擦出了别样的火花。

由于驾驶汽车无法解放双手，对于人机互动的需求，则更多需要通过语言来实现。因此，结合了人工智能的车载语音交互系统作为汽车智能网联时代的代表性产物，被更广泛地运用于汽车之中。

据盖世汽车研究院报告显示，随着消费者对座舱体验要求的提升，智能座舱将融合更多智能化、数字化功能，使得其单车价值量将大幅提升，2030年有望达到千亿规模。车载语音交互系统作为智能座舱中不可或缺的一部分，是车内最直接、最人性化、最安全的交互方式，随着AI和硬件性能的增强，也将成为未来最主要的车内交互方式。

解决难点成行业首要共识

智能语音交互主要有三大重点，分别是识别、理解、执行。在目前提供解决方案的厂商中，识别部分已经趋于成熟，识别率可以达到90%以上，像是数据堂等公司的识别率已达95%左右。行业的痛点主要聚焦于“理解”部分，大部分的车载语音交互系统在“理解”上并不智能，其主要体现在操作复杂与交互机械两个方面：

现在大部分厂商提供的语音交互解决方案是通过触摸屏与部分语音相结合的方式进行交互。同时在屏幕内的不同应用中还内置了不同的语音方案，这也带来了许多的操作不便。

此前传统主机厂提供的前端语音交互的功能，大部分采用命令控制。用户需按照指定命令去进行交互，机器不具备语义理解能力。交互机械化，导致整个系统功能单一、命令词单一。

此外，虽然语音识别准确率已经达到了一个较高的水平，但是用户毕竟是一个有独立精神的个体而非机器人，“口误”随时可能发生。因此在语音交互时，具有很大的不确定性，由于缺乏适应用户语音使用习惯的系统，以至于达不到正常的交互，无法完成用户设定的目标。

如何让车载语音交互系统像人一样理解我们的话语？这主要涉及到NLP（自然语言处理）技术，它们对于用户输入语音的理解与本身的场景策略、多轮对话有着密不可分的关系，并直接决定着车载语音交互系统的智能化程度。

如何交互，语音识别提供商献计献策

目前谷歌在NLP技术中处于一枝独秀的地位，但在国内中文车载语音交互市场，科大讯飞、微软、数据堂、亚马逊、百度等公司都在云服务和NLP技术领域拥有不俗的实力。

科大讯飞作为汽车智能化领域的先行者，自2003年开始，深耕汽车智能化领域，使人工智能技术在汽车产品上得到了深度应用。目前合作已覆盖90%以上的中国自主品牌和合资品牌车厂，累计前装搭载量突破 3600万套。

对于智能座舱提供了一整套解决方案。以全链路的产品和服务合作为基础，让用户的体验和管理持续迭代、持续在线。他们不仅仅停留于语音交互，还融入视觉和声纹多模感知交互等，让智能语音系统不再只服务于驾驶者。此外，科大讯飞还在车载语音识别系统中加入了深度学习功能，致力于为汽车用户打造一个专属自己的虚拟人工助理。值得一提的是，截止至2021年10月，科大讯飞共夺得38项国际人工智能大赛冠军，在人工智能领域建树颇多。

科大讯飞车载语音系统；图片来源：科大讯飞

微软也在车载语音交互江湖“摩拳擦掌”，其在去年就联合华人运通打造首个主动式人工智能伙伴 HiPhiGo。2021年4月，微软官宣了一项重量级收购，花费160亿美元收购美国最大语音识别公司Nuance。比尔·盖茨说过，“自然语言处理是人工智能皇冠上的明珠，如果我们能够推进自然语言处理，就可以再造一个微软。”

搭配微软车载语音系统的HiPhi X；图片来源：高合汽车

车载语音交互系统离不开语音识别技术的支持，即在文中一开始提到“识别”的部分。语音识别作为一种基础层感知类技术，既可以作为核心技术直接应用于终端产品，也可以仅作为一种感知类辅助技术集成于语音助手、车载系统、智慧医疗、智慧法院等场景的产品中。

数据堂专注于AI数据服务，作为国内首家上市的人工智能数据服务企业，拥有国际领先的自主核心数据处理技术，已实现基于ML辅助技术进行大规模数据生产的能力。在语音识别数据领域，数据堂现有20万小时的成品语音数据集，覆盖多设备、多类型、多环境与多语种，可快速帮助企业快速提高语音模型识别准确率。

成品语音数据覆盖30个语种；图片来源：数据堂

如何让系统更懂你，仍有许多思考空间

从专业的角度而言，语音识别作为一门交叉学科，涉及到从语言学到通信理论等多方面内容，还涉及到声纹、TTS、ASR、RNN等等一系列技术，同时要对一些特定领域有着深入理解。此外，汉语语义复杂，各地口音众多，也为系统开发增添了不小的难度。所以为智能语音交互提供解决方案是依靠相关企业共同合作还是一家企业独立完成，成为了未来的一个观察方向。

从产业的角度而言，语音交互的发展趋势正在从单模交互向和其他交互方式配合的多模交互发展。比如在车载系统中，语音识别结合虹网膜识别用来来判断驾驶员的疲劳程度；车载语音机器人通过声音和脸部识别抓取，判断用户的行为轨迹。因此车载语音如何构建与摄像头、座椅等配件的联动，真正实现智能座舱的一体化协同发展，也需要车载语音交互系统提供商们思考。

从市场的角度而言，汽车作为一个整体性销售的产品，无论是硬件还是软件，用户在使用中出现问题，首先想到的一定是寻找车厂解决，所以主机厂在寻找第三方合作的时候都会很谨慎。目前车载语音交互系统的提供商与主机厂合作关系良好，但是作为软件的部分，其涉及后续的OTA与是否付费的探讨。因此，未来主机厂会不会独立开发或者请提供商为其开发一套属于自己的语音交互系统也是一个值得思考的方向。

数据堂官方账号

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度 | 车载语音群雄并起共争智能座舱新高地

从市场的角度而言，汽车作为一个整体性销售的产品，无论是硬件还是软件，用户在使用中出现问题，首先想到的一定是寻找车厂解决，所以主机厂在寻找第三方合作的时候都会很谨慎。车载语音交互系统作为智能座舱中不可或缺的一部分，是车内最直接、最人性化、最安全的交互方式，随着AI和硬件性能的增强，也将成为未来最主要的车内交互方式。因此在语音交互时，具有很大的不确定性，由于缺乏适应用户语音使用习惯的系统，以至于达不到正常的交互，无法完成用户设定的目标。同时在屏幕内的不同应用中还内置了不同的语音方案，这也带来了许多的操作不便。.
复制链接

扫一扫