如何评价Hinton提出的Forward-Forward方法?

链接:https://www.zhihu.com/question/570153849

编辑:深度学习与计算机视觉

声明:仅做学术分享,侵删

作者:芙兰朵露

https://www.zhihu.com/question/570153849/answer/2787741439

NeurIPS现场听的,说实话听完跟听科幻小说一样,深受震撼,但非常兴奋,Hinton的talk结束之后就去看论文了。我是做实验物理的,所以最care的还是这个东西能用在物理里面。现在想到了两个可能的应用:一个是做模拟。现在物理圈子用ML做模拟的一般喜欢用differentiablesimulation,但事实上很多物理过程是不可微的,那么用这个FF的方法是不是可以绕过那些不可微的过程来生成物理事件?第二个是Hinton讲的所谓“mortalcomputing”,简单来说就是用FF网络实现模拟电路上的机器学习。这个也很有意思,毕竟很多物理实验的前端都是模拟电路,那么是不是可能在那里面加一个FF网络?其实我最喜欢的部分还是Hinton关于梦的比喻。

Hinton的理论是:人脑是一个大型FF网络。人在醒着的时候连续接受正样本,而在睡着的时候,脑子里的FF网络开始不断生成负样本并训练(FF可以自己生成负样本,不需要额外的负样本)。这样正负样本达到平衡,人才能保持正常精神状态;如果人一直不睡觉,FF网络时候正样本没有负样本,那么训练就会崩溃。最后想说一句,作为1947年出生的人,Hinton在一头白发的74岁高龄,依然不断的探索新领域。还是要革了自己提出的back propagation的命,并且自己写matlab代码验证自己的想法,真的很佩服这样的科学家。论文,荣誉,金钱都是身外之物,求知欲才是一名科研工作者最闪耀的勋章。

作者:qjf42

https://www.zhihu.com/question/570153849/answer/2787470996

目前看下来就是一种Local learning,没有完全抛弃梯度下降和反向传播,只是把完整的端到端BP拆成了层内BP,文中因为用的是MLP的例子,每层都是线性的(再加ReLU),所以梯度计算会很快,但如果是Transformer这样比较复杂的block的话,依然解决不了效率的问题。Local learning 也不是什么新鲜东西了,主要是为了解决端到端BP的一些弊端,比如Update locking,也就是前向和反向传播不能同步进行。Inference和Learning是互斥的两阶段,网络中的所有模块都要等前向传播全部完成后才能更新,使得训练大模型时用模型并行会存在长时间的空闲时间,降低显卡利用率,所以后面才有了流水线并行。如果Local learning能work,能极大地发挥出分布式训练的优势。文中提出的方法感觉跟Greedy Infomax比较像,使用了类似对比学习的方式,通过数据增强或者先验知识,构造一些正负样本。文中用了一个比较好解释的分类头,而Greedy Infomax的local loss用的是InfoNCE。

详情可以参考:端到端反向传播是唯一的出路吗https://zhuanlan.zhihu.com/p/460749570。

我觉得对于这种具有分层特征的模型,较低层的正负样本之间的共性可能远大于差异,尤其对大模型来说,会不太好找。一般这种方法的效果和收敛速度相比端到端都不高,毕竟两者虽然最后一层学习目标一致,但Local learning把问题分层处理,拆成多个可能与之冲突的小目标,是挺难达到最优的。不过之前有过类似的研究,比如一层学切词,一层学词性,再上面学ner,对于这种下游任务比较丰富的,倒可能比单独学一个语言模型更灵活。文中当然也不避讳,毕竟这算是老爷子的一个探索,还有很长的路要走,希望能看到更多的后续。

作者:marsggbo

https://www.zhihu.com/question/570153849/answer/2787253215

我惊讶的是论文只有老爷子一个人的署名,致敬

653063dedcbeb2c82fafd3eb1faa6430.jpeg

作者:好大水
https://www.zhihu.com/question/570153849/answer/2785472012

当前这种深度学习运行在僵硬的死的硬件。虽然现在的深度学习算法非常复杂,有数以亿计的参数,但它仍然是 常规的算法。

常规的算法,无论如何复杂,都不可能孕育真正的智能。这点在彭罗斯的 《皇帝的新脑》一书中有很清晰的证明。

现在的计算机,特点是硬件 非常赢,软件非常软,软件与硬件是可分离的,可以无限拷贝,一次编码无限使用。

现在的计算机硬件追求绝对的精确,没有给随机性(真正的随机性,不是随机数那种伪随机)保留空间。

人们尽最大努力消除随机噪声对计算机硬件的影响,虽然计算机硬件的生产利用了量子力学的原理,但它可以被认为是属于经典世界的,它几乎不会出错。

FFA是一种创造性的尝试。它的硬件不是现在这种用不犯错的数字芯片,而是模拟器件或者忆阻器等,AI程序是生长在硬件上的,程序的参数的学习过程会受到硬件中的随机性的影响。

软件是mortal的,是会死的,也就是说,如果硬件坏了,软件也就失效了,因为软件完全与硬件绑定。反过来,也可以认为它是活的,因为只有活的才会死。

与FFA不同,现在的常规软件是 immortal的,也就是说,就算这个硬件坏了,软件仍然可以在其他地方运行。

FFA是个创造性的尝试,很可能是迈向真正人工智能的重要转折。

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

3cd983fe14a876b694153aafcba277e0.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值