图灵奖得主 Yann Lecun:视觉预测大模型或将突破

        今天看了机器之心发的一个视频,一些顶尖专家在讨论大模型的发展,图灵奖得主 Yann Lecun谈到了一些观点:

        语言大模型(LLM)基于文本训练,但几乎已经耗尽了世界上的公开数据,从数据集上来讲,文本数据是有限的,而且LLM训练过程大概是,随机去除一段文字中的某些字,再由模型去预测缺失的字,尽管它实现了很强的泛化性,但它的预测结果仍然是从已有的数据中找出其相关联的关系结构,这种抽象层的设计很厉害,但并不见得是按照人类的认知逻辑实现的认知结果,因为人类的认知其中之一便是基于因果关系,但LLM抽象出来的关系架构,不见得符合这种因果关系。假设人类的认知逻辑是最优的,那么当参数量的增加对模型能力的提升开始递减时,认知逻辑的改变将是重要的突破点之一。从自然界来看,人的神经元高于猿猴,所以人比猿猴聪明,但大象的神经元又远高于人类,却没有人类的智慧,这也能说明认知逻辑,或者说模型架构的重要性,假设人类是最优个体,那么研究人类的认知逻辑是一个重要的突破口。

        基于视觉层面的大模型,总的来说,视觉数据的量级要远远超过文本数据,但目前按照LLM的训练方法训练视觉大模型效果并不好,文本上来讲,由上一个字可以预测下一个字,但基于世界的视觉去预测下一个世界的状态是一件难事,一个重要原因是我们无法建立世界的模型,这一点机器人的模拟器是一种应用,但目前来看是远远不足的。目前做到的是基于视觉的理解,也叫视觉语义大模型VLM,可以将视频或者图中的内容理解成文字信息,但这并不属于视觉预测大模型,模型依然无法预测一个人在十字路口如何选择方向。一个原因没有合适的架构来组合这种关系,从像素级空间无法解决,抽象空间解决是一个方向,但如何抽象这个空间,需要一个合适的框架。但无论如何VLM为实现这个能力,打下了一个良好的基础。本质上讲这也是想实现高阶具身智能的基础。Yann Lecun认为这一技术或许可以在几年内得到突破,也可能更久,这也是他研究的一个重点。

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值