随着车载大屏的发展,“去实体按钮”成了风气,但上期也讲过大屏的操作体验并不好,所以语音交互成为各家车厂的技术必选项。
智能语音上车已经发展了多年,从最初的“智障”状态,到现在连说带比划的“打开这个”“打开那个”......似乎越来越“聪明”了。
咱们从最初的智能音箱来看这个事儿,大概是10年前(2014年)吧,亚马逊推出了首款智能音箱Echo。2015年,国内各互联网大厂就同时开启了智能音箱时代的角逐,京东、阿里、小米、百度、华为……都相继进入了这个市场。
按说这么多大厂入局,这个技术的发展应该是飞速进步的,很可惜的是,直到今天,相信只要你家里有智能音箱,就能体会“智障”的含义。
通过10年的发展,销量虽然下滑,但这些年的累计数量绝对是个相当庞大的数字 ,如此大量且长时间地收集用户语音数据,按说应该越来越聪明才对,为何还是这么“笨”呢?
我不是这个专业的技术人士,所以不能科学地回答这个问题,但最近重刷《三体》,“拯救派”试图去构造三体运行模型最终失败,数学天才魏成费尽才华搞出来的模型,也只能演算出100多个场景,这可能就是这个问题的答案:任何小数量级的误差都会导致全然不同的运动轨迹。
语言恰恰具有无限可能性,任何算法都不能穷举出所有表达方式。虽然智能音箱在10年的学习中,进化了几个数量级的场景覆盖,但还是远远赶不上人们日常千变万化的生活场景。
当多数场景不被满足时,那么你就会觉得它“笨”!就像三体中的预测模型,虽然精确预测了几次恒纪元,但只要有一次出错,那么就是整个文明的毁灭,这个模型就会被全面否定!
而汽车场景却是将场景限定在有限的范围内,控车、导航、听音乐……似乎正是因为这种限制,刚好可以在有限的场景内实现深度优化体验的目标。
以现在造车新势力来说,完美实现了连续对话、多人同时说话,甚至结合手势说话,在有限场景中用户体验极佳!
而随着chatGPT的出圈儿,大语言模型更为智能语音带来了质的飞跃。对话越来越自然,仿佛语音的背后是真人在说话,智能语音在车上的价值,也在被各车厂更进一步的重视。
不可否认语音交互的便利性,但在这股技术浪潮之下,我们是否应该考虑两个本质需求问题:
一、人们是否真的有如此强烈的对话需求?
很多产品经理都在企划车的“陪伴”作用。语音不仅是控制车辆的交互方式,同时可以让车通过聊天来提供陪伴价值。
先说一个我自己的经历。记得前些年出差,住某快捷酒店,主打一个科技风格,全屋智能语音交互,我甚至没有找到空调遥控器,床头也没有控灯开关,所有操作都是对着智能音箱“说话”。限于当时技术能力,为了表达“将空调开至24度”这句话,我用了各种表达方式,在经历了数次失败后,最终打电话向前台要了遥控器;而半夜起来上厕所,宁静的黑暗中我对着空气大声音说“打开厕所灯”......这种诡异和不适感让人很难理解这样的技术到底有啥用。
驾车场景中,如果只有你一个人,你是否真的想说话,真的想去跟一辆车聊天?当车上有多人的时候,你是否会选择很突兀地对着空气说话来控制车辆?注意,我说的不是你试驾时的“浅度”体验,而是一辆要使用多年的车,你是否真的愿意对着车去说话?
二、普通人的表达力是否能满足对话需要?
chatGPT将虚拟聊天带到了一个全新的体验层次,但需要注意的是:打字聊天与说话聊天的区别!
打字的过程,同时也是思考的过程,这个过程可以让文字具有逻辑性、表达更清晰;而说话往往表达模糊,逻辑性也更差,甚至各种嗯、啊......人与人之间的对话,往往是已知对方很多信息,所以才可以快速补充说话中隐含的内容,所以人与人对话的“容错性”很强。
要是对话的对象换成AI,这种人机对话的“容错性”就弱了很多。需要说话者具有极强的表达力与逻辑性,更重要的是,还需要“嘴能跟上脑子”,这个绝对不是一个简单的事儿!
基于上面两个问题,你的答案是什么呢?对于车载智能语音交互又有什么想法呢?
我只说说个人想法吧:
对于简单交互,比如打开窗、打开空调之类的,传统的实体按钮在盲操性、反馈性、操作效率上,都是最好的选择,没有之一!但随着去实体按钮的大屏化趋势下,将这类功能固化在“首屏”固定位置上也是一个可以接受的选择;反而语音交互在效率上是最低的,也许有些场景真的腾不开手,可以作为备选交互手段。
对于复杂交互,比如导航至某地途经某地,或是要听哪位歌手的哪首歌之类,语音要比点击屏幕有更高的效率和体验,但前提是技术上做得好,否则说半天也没完成,那就谈不上体验了。
“禁止与司机聊天”这个常识不管是否会开车,应该都知道吧!虽然在日常生活中不会那么严格执行,但大多还是遵守这项要求。
“说话”本身是需要占用“脑力”的,在自动驾驶还没有普及之前,人工驾驶还是要占用驾驶员的绝大部分精力的,简单交互中的指令型语音,在习惯之后还可以成为一种直觉式操作(上面说过,效率并不高),相对安全。
而复杂交互中,大部分人还是需要处于相对稳定的路况环境才会去有“脑力”去组织语言表达。
乘客与车的语音交互,尤其是被绑在儿童座椅上的小朋友,可能更喜欢这种“说话”交互方式。但以其表达力来说,完成一个操作可能需要更多次的尝试,此时开车的你,是否会被打扰?当这种对话一直持续下去,没完没了的“闹耳朵”,应该是一种极差的用户体验吧!
在自动驾驶尚未到来的阶段,语音仅可作为备选的交互手段,比如导航应用中自带的语音能力,其实已经满足了导航场景下的需求,用高成本去实现整车级的语音能力,在营销层面的确可以多出一些噱头,但实际的用户价值与体验并没有与其成本匹配。
总有一天自动驾驶会普及,在车里的每一个人都是乘客了,那么智能语音可能会发挥出相应的价值。这时候就去想想,在家里的客厅中,无论是一个人的时候,还是多人的时候,咱们真的需要用语音去控制家电吗?真的需要对着一个机器去聊天吗?
以上观点仅代表个人,接受一切反驳,但我依然固执地保留意见!
也许终有一天,智能语音背后的“灵魂”已经通过图灵测试,让我们完全把机器当成人了,那时候我们会产生真正的与之“对话”需求,那已经不是汽车这个狭小的领域的技术变革了,而是我们碳基生物转向硅基生物的革命!期待这一天的到来。
下期说说当下最流行的多模态交互,看看到底在车上能搞出什么样的全新交互体验。
文章首发于公众号:昊叔说车
原创不易,转载请告知原作者,注明出处。