论文总引用量破50万，何恺明大神最新论文：剑指AI生成领域！

最新推荐文章于 2024-07-26 11:18:21 发布

深度学习技术前沿

最新推荐文章于 2024-07-26 11:18:21 发布

阅读量138

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzU2NDExMzE5Nw==&mid=2247541420&idx=1&sn=4efd0f64b0b2c0034ab0af4de84842d0&chksm=fd7b6ab4575c263c87a9f16e59e320995dbed8d4bb05e14de2146b035e791e64cf07f07a82c5&scene=126&sessionid=0

版权

何恺明（Kaiming He）谷歌学术被引用量已突破50万！目前是 Computer Vision 领域被引用量最高的人！

计算机视觉领域引用量排名：

而在(谷歌学术上)最大的AI领域Machine Learning，何恺明引用量排名第三！仅次于Geoffrey Hinton、Yoshua Bengio两位巨佬！PS：这两位老爷子的引用量均突破70万，太恐怖了！

何恺明自2024年加入麻省理工学院(MIT)，在电气工程与计算机科学系担任教职。近日，何恺明团队联合Google DeepMind和清华大学，首次提出了一种无需矢量量化的自回归图像生成方法，彻底颠覆了人们对自回归生成技术的认知。

在传统的自回归图像生成中，矢量量化一直是不可或缺的一环。然而，这种方法的局限性在于，它依赖于离散的tokenizer，这在一定程度上限制了生成图像的灵活性和多样性。

而今，何恺明团队让自回归模型抛弃矢量量化，使用连续值生成图像。并借鉴扩散模型的思想，提出Diffusion Loss。

自回归模型学习不同token间的关联性，而扩散过程通过损失函数学习单个token的概率分布。具体来讲，自回归模型会根据前面的token预测一个向量z作为小型去噪网络（如MLP）的条件，通过损失函数不断学习连续值x的潜在分布并从中采样。

文章进一步提出了一种广义自动回归框架，该框架将标准自动回归模型和掩码生成模型统一起来。在这种框架下，模型可以预测多个输出标记，同时保持自动回归的性质。

掩码自动回归（MAR）模型：MAR模型预测一组标记，这些标记基于随机顺序排列的已知或已预测的标记。这种模型可以看作是一种自动回归过程，其中一组标记被视为“下一个标记集合”。

而三种自回归的掩码顺序如下图所示

生成速度快且效果惊艳：

与当前最佳模型相比，性能更优：

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群！

大家好，群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享，主要方向有：图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注：研究方向+学校/公司+昵称（如图像分类+上交+小明）

深度学习技术前沿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。