行业洞察 | 你的车载语音助手足够Smart吗？

Magic Data

已于 2022-06-06 17:43:11 修改

阅读量686

点赞数

文章标签：语音识别汽车机器学习

于 2022-05-22 13:39:16 首次发布

本文链接：https://blog.csdn.net/weixin_47718443/article/details/124909752

版权

截止2021年，中国乘用车智能语音交互功能的搭载率已经高达86%。目前，汽车座舱正朝着智能化趋势发展，而车载语音助手是智能驾驶舱中最核心的功能。在驾驶过程中，由于驾驶员的手和眼睛都被任务所占据，因此车载场景对于语音的免提交互功能提出更高的要求。

近日，各大公司争相投资智能车载语音交互领域。小度与蔚来汽车达成合作，双方将围绕蔚来汽车车载语音操作系统使用体验进行优化升级，进一步提升人车交互体验。不久前，微软正式宣布，在基于微软智能云Azure的深度神经网络TTS（Text-to-Speech）支持下，中国领先的智能电动汽车公司小鹏汽车已经顺利完成其车规级语音助手的升级。华为更是开始自主研发智能座舱。对于大多数企业而言，智能车载语音助手是目前智能驾舱研发的最大卖点，今天我们就来聊聊智能车载语音助手研发所面临的挑战与机遇。

挑战

随着智能语音助手的广泛落地，其中汽车作为最特殊的应用场景，与其他场景有着天然的差别，因此也更具挑战。

挑战一，驾驶场景特殊性，给车载语音交互带来了一系列难题。

具体来说，在车载这种十分复杂的声学环境中，汽车语音助手面临着噪声干扰、混响严重、多人语音混叠、车外各种风声雨声、其他车辆噪声干扰的挑战。这对语音的准确识别、语音质量的增强、高质量的语音交互都是比较棘手的问题。同时，车载语音助手可能涉及隐私问题，也是目前推向消费者所面临的挑战。

挑战二，车载硬件设备限制多，对于模型和交互准确性要求更高。

为应对车规级的严苛标准，车载语音系统的模型大小和实时率都需要控制在较低范围内，CPU 占用低，整体响应时间快，在识别效果、播报体验、响应时间、资源消耗等指标上，相对于普通的识别模型的要求都要高。

挑战三，车载语音场景数据少，是目前研究和落地的瓶颈。

目前用于车载AI语音训练的数据积累仍然不够，针对驾驶场景中的语义理解和验证仍有待提高。虽然智能音箱、机器人等场景的交互数据能够给车内场景提供一定的数据支撑，但并不能完整代替车内场景交互的数据。

解决方案

方案一， 用符合实际场景的车载语音数据让车载语音助手更加Smart。

随着语音助手的更多量产，相应的技术研究可以从先验的方式变成数据驱动的方式。使用车载实际场景录音数据对智能语音助手模型进行训练，才能够让它越来越Smart，同时减少数据不匹配导致的识别率下降等问题。同时，在用户使用智能车载语音助手过程中，也可通过对本地数据的应用微调语音助手模型，让模型越来越聪明，推荐的服务也越来越符合用户需求。

方案二，算法研究减少噪声，降低模型大小，提升识别准确率。

车载语音交互所涉及的流程繁琐，涉及到从语言学到声学理论等多方面内容，同时在车端的使用需对特殊驾乘场景进行相应适配。在语音交互在车端应用过程中，ASR（包含信号输入、降噪以及音素选取等流程）、NLP（包含NLU与NLG，涉及词性标注与文本信息处理）、 TTS（包含语音的后端拼接合成，同时也是语音拟人化核心环节）成为三大关键环节。如何将每个环节巧妙的联系起来，相互辅助，构建完整流畅的整体算法框架，是目前学术界和工业界的发力点。其实算法驱动也离不开实际车载语音数据的辅助，因为解决车载语音助手难点的关键还是在于实际场景车载语音数据的录制。

无论是多么优秀的车载语音助手技术路线，都离不开上游的车载数据。作为全球领先的AI数据解决方案提供商，Magic Data通过高质量数据集和解决方案为企业赋能。目前，Magic Data已为众多汽车行业企业、语音交互系统研发企业提供多种语言和语种混合的车载语音数据，其中车载场景数据包含多语种、多种噪声环境、多设备录制等。