LeCun怒斥Sora是世界模型,自回归LLM太简化了

视学算法报道

编辑:陈萍

LeCun 对「世界模型」给出了最新定义。

最近几天,Sora 成为了全世界关注的焦点。与之相关的一切,都被放大到极致。

Sora 如此出圈,不仅在于它能输出高质量的视频,更在于 OpenAI 将其定义为一个「世界模拟器」(world simulators)。

d4677fab602362009e32d9c76baeb1e1.png

英伟达高级研究科学家 Jim Fan 甚至断言:「Sora 是一个数据驱动的物理引擎」,「是一个可学习的模拟器,或『世界模型』」。

3db93486bf88ddc84270223c685c1ef1.png

5c588278826612067a104a68627571da.png

「Sora 是世界模型」这种观点,让一直将「世界模型」作为研究重心的图灵奖得主 Yann LeCun 有些坐不住了。在 LeCun 看来,仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。

7f6e94c414d8342c2b59c2df808936d7.png

图源:https://twitter.com/ylecun/status/1758740106955952191

虽然 Sora 的发布让整个 AI 界为之疯狂,但 LeCun 并不看好。他不止一次的公开表达过对自回归和 LLM 的批评,而自回归模型是包括 Sora 等在内的 GPT 系列 LLM 模型所依赖的学习范式,也就是说,从 ChatGPT 到 Sora,OpenAI 都是采用的自回归生成式路线。

然而 LeCun 多次唱衰这种技术路线,他曾表达过一些不满,比如「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」「自回归生成模型弱爆了!(Auto-Regressive Generative Models suck!)」「LLM 对世界的理解非常肤浅。」等言论。

世界模型和自回归 LLM 到底该如何定义?身为全球知名的 AI 研究学者,LeCun 自然不是一位全然的批评家,最近,他给出了世界模型的新定义。在他看来,自回归生成模型仅仅是世界模型的一种简化的特殊情况。与大家在互联网上看到的动不动就是长篇大论的科普不同,LeCun 以一种简单直白的方式给出了世界模型的定义。

382c6a61bf19a68abb7b1ee696b10b3f.png

图源:https://twitter.com/ylecun/status/1759933365241921817

对于给定的:

  • 观察值 x (t);

  • 对世界状态的先前估计 s (t);

  • 动作建议 a (t);

  • 潜在变量建议 z (t)。

世界模型需要计算出:

  • 表征:h (t) = Enc (x (t));

  • 给出预测:s (t+1) = Pred ( h (t), s (t), z (t), a (t) )。

其中,

  • Enc () 是一个编码器(我们可以理解为一个可训练的确定性函数,例如神经网络);

  • Pred () 是一个隐藏状态预测器(也是一个可训练的确定性函数);

  • 潜在变量 z (t) 代表未知信息,可以准确预测将来会发生什么。z (t) 变量必须从一个分布中进行采样,或者在一组中变化。它参数化了(或分布)一系列可能的预测。换句话说,变量 z (t) 定义了一个可能性空间,我们根据这个空间来预测未来可能发生的情况。

诀窍是通过观察三元组 (x (t),a (t),x (t+1)) 来训练整个模型,同时防止 Encoder 坍缩。

自回归生成模型(例如 LLM,Sora 就是这种路线)是一种简化的特殊情况,原因在于:

1. Encoder 是恒等函数:h (t) = x (t);

2. 状态是过去输入的窗口;

3. 没有动作变量 a (t);

4. x (t) 是离散的;

5. 预测器计算 x (t+1) 结果的分布,并使用潜在 z (t) 从该分布中选择一个值。

方程简化为:

s (t) = [x (t),x (t-1),...x (t-k)]

x (t+1) = Pred ( s (t), z (t), a (t) )

在这种情况下不存在坍缩问题。

这可能就是 LeCun 极力反对 Sora 是世界模型这种说法的一个重要原因 —— 它只是世界模型中一种简化的特殊情况。

不过话说回来,Jim Fan 又在 LeCun 的这条推文下方留言,他坚持道:「Sora 本质上是一种无操作(no-op)的世界模型。你可以设置世界的初始状态,在潜在空间中运行模拟,并被动地观察会发生什么。现在没有办法进行积极干预。」

至于 Sora 到底是不是世界模型我们暂且不议,混淆大家多时的「世界模型」的定义,现在终于被 LeCun 讲明白了。

© THE END 

转载请联系本公众号获得授权

100e653b07bc7d52c234b302bf8e7d0c.png

outside_default.png

点个在看 paper不断!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
LeNet网络模型是一种经典的卷积神经网络模型,由Yann LeCun在1998年提出。它是构建在卷积层、池化层和全连接层之上的。 LeNet模型的结构主要包括7层:输入层、卷积层C1、池化层S2、卷积层C3、池化层S4、全连接层F5和输出层。 输入层接受原始的图像数据,然后将其传输到第一个卷积层C1。在C1中,使用多个卷积核(filter)对输入图像进行卷积操作,并通过非线性激活函数(通常采用Sigmoid函数或ReLU函数)进行处理,从而提取出图像的特征。 接下来,经过池化层S2的处理,实现了特征的下采样。S2使用非线性函数(如Sigmoid函数)对C1中的每个特征图进行池化操作,将其缩小一定比例,以减少特征图的维度。 然后,通过第二个卷积层C3对S2中的特征进行卷积操作,并再次通过非线性激活函数进行处理,提取出新的特征。C3的卷积核与C1中的卷积核只有部分连接,这样可以减少参数的数量。 池化层S4与S2的作用类似,将C3中的特征进行下采样,减小特征图的维度。 最后,将S4中的特征经过全连接层F5进行处理,将其展开成一维向量,并通过一系列的全连接操作得到最终的结果。 最后一层是输出层,根据具体的任务需求,可以采用不同的激活函数和损失函数。 总结来说,LeNet网络模型通过卷积层、池化层和全连接层的组合,能够逐层提取图像的特征,并将其用于分类、识别等任务中。它的设计思想和结构对之后的卷积神经网络模型的发展有着重要的影响。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值