论文总引用量破50万,​何恺明大神最新论文:剑指AI生成领域!

何恺明(Kaiming He)谷歌学术被引用量已突破50万!目前是 Computer Vision 领域被引用量最高的人!

3532823528f22c9f19873fbadab5704d.png

计算机视觉领域引用量排名:

bce07651abea0274f0d24684f9e1c323.png

而在(谷歌学术上)最大的AI领域Machine Learning,何恺明引用量排名第三!仅次于Geoffrey Hinton、Yoshua Bengio两位巨佬!PS:这两位老爷子的引用量均突破70万,太恐怖了!

7e20a14559190889905647285fa3857b.png

何恺明自2024年加入麻省理工学院(MIT),在电气工程与计算机科学系担任教职。近日,何恺明团队联合Google DeepMind和清华大学,首次提出了一种无需矢量量化的自回归图像生成方法,彻底颠覆了人们对自回归生成技术的认知。

b3ca256cfec4bbccd93e66390881961a.png

在传统的自回归图像生成中,矢量量化一直是不可或缺的一环。然而,这种方法的局限性在于,它依赖于离散的tokenizer,这在一定程度上限制了生成图像的灵活性和多样性。

而今,何恺明团队让自回归模型抛弃矢量量化,使用连续值生成图像。并借鉴扩散模型的思想,提出Diffusion Loss。

自回归模型学习不同token间的关联性,而扩散过程通过损失函数学习单个token的概率分布。具体来讲,自回归模型会根据前面的token预测一个向量z作为小型去噪网络(如MLP)的条件,通过损失函数不断学习连续值x的潜在分布并从中采样。

64b1732d03677ae3c0c4e8b102170077.png文章进一步提出了一种广义自动回归框架,该框架将标准自动回归模型和掩码生成模型统一起来。在这种框架下,模型可以预测多个输出标记,同时保持自动回归的性质。

  • 掩码自动回归(MAR)模型:MAR模型预测一组标记,这些标记基于随机顺序排列的已知或已 预测的标记。这种模型可以看作是一种自动回归过程,其中一组标记被视为“下一个标记集 合”。

而三种自回归的掩码顺序如下图所示

a6fa7f3dce21ccbdf8829fe2cb640568.png

生成速度快且效果惊艳:

50fc2a9a7c709e06a73eaea9a4084406.png 与当前最佳模型相比,性能更优:
63fbfd5e6764d77f826b74782590079a.png

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

f4756ea5dc2ad686b903f60d31fb186a.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值