首先明确几个概念,平时说的大模型是:
large language model,LLM,大语言模型
这个术语没有正式的定义,但它通常指的是参数数量在数十亿或更多数量级的深度学习
模型
Generative Pre-trained Transformer(GPT)系列是最有名的大模型,GPT-3.5的模型参数达到了约1750亿
多模态
就是可以输入多种类型的信息,包括文字、图像、视频等
按我的理解,自动驾驶中的大模型就是让大模型接收相机拍摄到的图像,并直接输出车控指令,也就是油门刹车方向盘转角。
如果是文字型大模型,似乎要先把图像翻译成语言再输入。
听起来对于聪明的大模型这似乎不是一件难事,难点在哪里呢?实时性吗,必须部署在车上吗?
先挖坑,后面慢慢补充吧~