关于汽车场景人机交互的想法（二）_智能汽车人机交互语音对话-CSDN博客

本文链接：https://blog.csdn.net/whyskysun/article/details/137961944

本文探讨了车载语音交互的发展历程，从早期的智能音箱到现代车辆的语音控制，尽管技术有所进步，但用户体验仍有待提升。文章质疑了在有限场景下语音交互的需求和普通人的表达力能否满足复杂的对话需求，提出了自动驾驶普及后可能的变化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

随着车载大屏的发展，“去实体按钮”成了风气，但上期也讲过大屏的操作体验并不好，所以语音交互成为各家车厂的技术必选项。

智能语音上车已经发展了多年，从最初的“智障”状态，到现在连说带比划的“打开这个”“打开那个”......似乎越来越“聪明”了。

咱们从最初的智能音箱来看这个事儿，大概是10年前（2014年）吧，亚马逊推出了首款智能音箱Echo。2015年，国内各互联网大厂就同时开启了智能音箱时代的角逐，京东、阿里、小米、百度、华为……都相继进入了这个市场。

按说这么多大厂入局，这个技术的发展应该是飞速进步的，很可惜的是，直到今天，相信只要你家里有智能音箱，就能体会“智障”的含义。

通过10年的发展，销量虽然下滑，但这些年的累计数量绝对是个相当庞大的数字，如此大量且长时间地收集用户语音数据，按说应该越来越聪明才对，为何还是这么“笨”呢？

我不是这个专业的技术人士，所以不能科学地回答这个问题，但最近重刷《三体》，“拯救派”试图去构造三体运行模型最终失败，数学天才魏成费尽才华搞出来的模型，也只能演算出100多个场景，这可能就是这个问题的答案：任何小数量级的误差都会导致全然不同的运动轨迹。

语言恰恰具有无限可能性，任何算法都不能穷举出所有表达方式。虽然智能音箱在10年的学习中，进化了几个数量级的场景覆盖，但还是远远赶不上人们日常千变万化的生活场景。

当多数场景不被满足时，那么你就会觉得它“笨”！就像三体中的预测模型，虽然精确预测了几次恒纪元，但只要有一次出错，那么就是整个文明的毁灭，这个模型就会被全面否定！

而汽车场景却是将场景限定在有限的范围内，控车、导航、听音乐……似乎正是因为这种限制，刚好可以在有限的场景内实现深度优化体验的目标。

以现在造车新势力来说，完美实现了连续对话、多人同时说话，甚至结合手势说话，在有限场景中用户体验极佳！

而随着chatGPT的出圈儿，大语言模型更为智能语音带来了质的飞跃。对话越来越自然，仿佛语音的背后是真人在说话，智能语音在车上的价值，也在被各车厂更进一步的重视。

不可否认语音交互的便利性，但在这股技术浪潮之下，我们是否应该考虑两个本质需求问题：

一、人们是否真的有如此强烈的对话需求？

很多产品经理都在企划车的“陪伴”作用。语音不仅是控制车辆的交互方式，同时可以让车通过聊天来提供陪伴价值。

先说一个我自己的经历。记得前些年出差，住某快捷酒店，主打一个科技风格，全屋智能语音交互，我甚至没有找到空调遥控器，床头也没有控灯开关，所有操作都是对着智能音箱“说话”。限于当时技术能力，为了表达“将空调开至24度”这句话，我用了各种表达方式，在经历了数次失败后，最终打电话向前台要了遥控器；而半夜起来上厕所，宁静的黑暗中我对着空气大声音说“打开厕所灯”......这种诡异和不适感让人很难理解这样的技术到底有啥用。

驾车场景中，如果只有你一个人，你是否真的想说话，真的想去跟一辆车聊天？当车上有多人的时候，你是否会选择很突兀地对着空气说话来控制车辆？注意，我说的不是你试驾时的“浅度”体验，而是一辆要使用多年的车，你是否真的愿意对着车去说话？

二、普通人的表达力是否能满足对话需要？

chatGPT将虚拟聊天带到了一个全新的体验层次，但需要注意的是：打字聊天与说话聊天的区别！

打字的过程，同时也是思考的过程，这个过程可以让文字具有逻辑性、表达更清晰；而说话往往表达模糊，逻辑性也更差，甚至各种嗯、啊......人与人之间的对话，往往是已知对方很多信息，所以才可以快速补充说话中隐含的内容，所以人与人对话的“容错性”很强。

要是对话的对象换成AI，这种人机对话的“容错性”就弱了很多。需要说话者具有极强的表达力与逻辑性，更重要的是，还需要“嘴能跟上脑子”，这个绝对不是一个简单的事儿！

基于上面两个问题，你的答案是什么呢？对于车载智能语音交互又有什么想法呢？

我只说说个人想法吧：

对于简单交互，比如打开窗、打开空调之类的，传统的实体按钮在盲操性、反馈性、操作效率上，都是最好的选择，没有之一！但随着去实体按钮的大屏化趋势下，将这类功能固化在“首屏”固定位置上也是一个可以接受的选择；反而语音交互在效率上是最低的，也许有些场景真的腾不开手，可以作为备选交互手段。

对于复杂交互，比如导航至某地途经某地，或是要听哪位歌手的哪首歌之类，语音要比点击屏幕有更高的效率和体验，但前提是技术上做得好，否则说半天也没完成，那就谈不上体验了。

“禁止与司机聊天”这个常识不管是否会开车，应该都知道吧！虽然在日常生活中不会那么严格执行，但大多还是遵守这项要求。

“说话”本身是需要占用“脑力”的，在自动驾驶还没有普及之前，人工驾驶还是要占用驾驶员的绝大部分精力的，简单交互中的指令型语音，在习惯之后还可以成为一种直觉式操作（上面说过，效率并不高），相对安全。

而复杂交互中，大部分人还是需要处于相对稳定的路况环境才会去有“脑力”去组织语言表达。