图灵奖得主 Yann Lecun：视觉预测大模型或将突破-CSDN博客

本文链接：https://blog.csdn.net/weixin_48878618/article/details/135847188

本文讨论了语言大模型(LLM)的局限性，强调了基于文本数据的限制和人类认知逻辑在模型设计中的重要性。同时，作者指出视觉大模型（如VLM）面临的挑战，尤其是在预测复杂情境方面，以及未来可能的突破方向——结合抽象空间的模型架构研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天看了机器之心发的一个视频，一些顶尖专家在讨论大模型的发展，图灵奖得主 Yann Lecun谈到了一些观点：

语言大模型(LLM)基于文本训练，但几乎已经耗尽了世界上的公开数据，从数据集上来讲，文本数据是有限的，而且LLM训练过程大概是，随机去除一段文字中的某些字，再由模型去预测缺失的字，尽管它实现了很强的泛化性，但它的预测结果仍然是从已有的数据中找出其相关联的关系结构，这种抽象层的设计很厉害，但并不见得是按照人类的认知逻辑实现的认知结果，因为人类的认知其中之一便是基于因果关系，但LLM抽象出来的关系架构，不见得符合这种因果关系。假设人类的认知逻辑是最优的，那么当参数量的增加对模型能力的提升开始递减时，认知逻辑的改变将是重要的突破点之一。从自然界来看，人的神经元高于猿猴，所以人比猿猴聪明，但大象的神经元又远高于人类，却没有人类的智慧，这也能说明认知逻辑，或者说模型架构的重要性，假设人类是最优个体，那么研究人类的认知逻辑是一个重要的突破口。

基于视觉层面的大模型，总的来说，视觉数据的量级要远远超过文本数据，但目前按照LLM的训练方法训练视觉大模型效果并不好，文本上来讲，由上一个字可以预测下一个字，但基于世界的视觉去预测下一个世界的状态是一件难事，一个重要原因是我们无法建立世界的模型，这一点机器人的模拟器是一种应用，但目前来看是远远不足的。目前做到的是基于视觉的理解，也叫视觉语义大模型VLM，可以将视频或者图中的内容理解成文字信息，但这并不属于视觉预测大模型，模型依然无法预测一个人在十字路口如何选择方向。一个原因没有合适的架构来组合这种关系，从像素级空间无法解决，抽象空间解决是一个方向，但如何抽象这个空间，需要一个合适的框架。但无论如何VLM为实现这个能力，打下了一个良好的基础。本质上讲这也是想实现高阶具身智能的基础。Yann Lecun认为这一技术或许可以在几年内得到突破，也可能更久，这也是他研究的一个重点。