大模型与大数据

大模型将AI推上风口,在已经卷到惨烈的国内汽车市场中,各车企的决策者们不约而同地意识到大模型上车是下一个技术热点。

理想的MindGPT在“冰箱”“彩电”“大沙发”的出圈儿特征后,成为又一个新标杆,引得各家纷纷研究效仿。

抄作业嘛,本来是个简单的事儿,可是抄的过程中发现了这玩意儿成本不低啊!然后就有了全新的灵魂拷问:这玩意儿到底有啥用?

之前两期话题大概也聊了关于AI的一些个人观点,本期呢就聊聊以前大数据时代有想法却没落地的事儿,如何与大模型结合起来,试着找出一个角度来回答上面的问题。

先说说通用大模型与汽车垂类模型之间的关系。通用大模型对于算力、数据、算法都有着极高的成本要求,目前来看基本上是大厂通吃的节奏,绝大多数车企也是选择大厂合作。闲聊啊、百科知识啊、娱乐生活啊,反正基本上大厂都给解决了。无论选择谁家区别都不大,且同质化严重,就算花力气做些定制或精调,也不过是反馈内容更精准些。

然后很自然地想到,车厂自有的知识库给到通用大模型中,是不是也可以有汽车垂类模型产生了?比如把车辆的说明书、4S维修手册,甚至官方客服的对话记录都通过RAG的方式给到大模型中,那么就拥有了一个“懂车”的大模型。

然后这种想法似乎也没啥技术门槛,比的是哪家车厂的知识文档更全更精细,应该也形成不了差异化,且这些知识内容对于通用大模型来说,只不过是在“百科知识”中多加一科。

好吧,算力、算法都不是车厂应该投入的方向,那么就只有数据了,区别于上面说的那些“文档”类知识,数据是汽车在全生命周期中的所有记录,记录着汽车在运行中的每一分每一秒都发生了什么。只有现象的记录,没有因果的分析!

比如:在数据中去观察,会发现很多车在夏天,不下雨的情况下,停车前会把窗户留一条缝,然后再熄火。虽然老司机都明白是怕夏天车里晒得太热,让空气可以流通一些,但这是人为分析出的“因果”,对于数据来说,只是把天气、升窗90%(也许是个区间值)、熄火三个现象建立了连接。下次再出现天气热、停车熄火的事件,车是不是可以自己给窗留点儿缝呢?当然,这个情况涉及到很多场景,比如下雨、扬尘环境、地下停车场、假日长期停车等等,都会影响“留缝儿”是否出现。

上面的例子还是可以分析出因果的场景,很多场景完全是超出人为理解的:为啥明明路边有车停位,但好多车非要停到马路牙子上?结果真有一天下大雨后,发现没停在马路牙子上的车,被积水泡了!下次天气预报有雨的时候,这个车主也都停到马路牙子上面去了;为啥前面这个弯儿并不大,好多车到这儿都突然急减速?等你开到这儿的时候,发现这不光是个弯道,还顺势大角度倾斜,减速不快,差点翻车。下次你再开到这儿,也跟大家一样急减速了;为啥边上这个小区明明有大量停车位,就是没人进去停?你停车第二天发现,车窗被砸了……

很多时候,别问为什么,仅靠个人经验是根本无法分析因果的。但是现象与现象之间的联系就在那里,说不清道不明。我以前总说:大数据就是算命,你天庭饱满地阁方圆,就是大富大贵。别问为啥,反正长成这样的都挺富贵……(这句是开玩笑哈,我一点儿也不迷信)

以上这些数据现象是车厂最大的财富。在数据价值的话题中其实已经提过,但却在实际落地中产生了问题,因为大数据模型是基于“聚类”的方式来挖掘场景价值,也就是说主要还是以“人”的视角去观察。很多现象是人无法理解与分析的,所以在落地过程中,还是“穷举”,不仅是场景“穷举”,场景相关的现象也是“穷举”出来的,大大降低了价值与准确度。

语言大模型的魅力就在这时就体现出来了:你只要把各种现象告诉它,它会自己去建立不同现象之间的联系,这种联系无法解释,但只要你告诉它的现象越多越全,最后它生成的结果也就越有价值。

还是上面那个夏天车窗留缝儿的例子,只要把现象描述得足够全,也就是把停车前后的各种环境条件数据都告诉语言大模型,它自然就可以知道什么样的情况应该留缝儿。与chatCPT写诗一样,给它个主题它自然就能写出来,至于它是如何思考的,人也解释不清,就是这么神奇!

但车厂的数据是个冷冰冰的值,直接给到语言大模型,它没办法理解,还是需要人将这些数据值转化为自然语言去描述,这也就产生了一个全新的工种:行业中叫大模型训练师。

这个岗位的工作说白了就是把数据现象用语言描述出来。看起来简单吧,但不仅需要理解数据含义,还需要将数据抽象为现象,最重要的还是能有非常清晰的语言表达能力!

还是上面那个留缝儿的例子:某车、某地、某时、室外温度、天气情况、周边环境、用户操作动作(升窗未满)、熄火……,就是这种有逻辑、有顺序、清晰的描述,很可能就是以后“赛博工人”的能力要求了。

当然,对于车厂数据的要求也更高了。数据质量与可读性,在动辄几十上百PB的数据中,绝对是个考验技术积累的活儿。各家车厂可以回头翻翻自己的数据平台,看看是否真的满足,然后大概率会发现:咋这么乱呢!

数据是大模型时代车厂出圈儿的最关键资源,以此为基础建立自己的优势将是未来几年的最重要工作!


文章首发于公众号:昊叔说车

原创不易,转载请告知原作者,注明出处。

  • 16
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值