53位作者只有1个华人？NeurIPS 2021大奖揭晓，Google、DeepMind、斯坦福百花齐放-CSDN博客

NeurIPS2021公布了多项奖项，包括杰出论文奖、时间检验奖和数据集与基准最佳论文奖。获奖论文涉及深度学习的理论理解、马尔可夫奖励函数的表达性、强化学习的评估方法、文本生成的评估指标、梯度下降的连续加速以及流形上的生成建模。时间检验奖授予了2010年关于在线学习和潜在 Dirichlet 分配的论文。数据集和基准最佳论文则关注了数据集在机器学习中的使用和分子建模的基准任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

视学算法报道

编辑：技术组

【新智元导读】11月30日，NeurIPS 2021会议公布了杰出论文奖（Outstanding Paper Awards）、时间检验奖（Test of Time Award）以及新的数据集和基准最佳论文奖（Datasets & Benchmarks Best Paper Awards）。

NeurIPS 2021最佳论文来了！

昨日，NeurIPS 2021会议公布了多个奖项，其中包括：杰出论文奖（Outstanding Paper Awards）、时间检验奖（Test of Time Award）以及新的数据集和基准最佳论文奖（Datasets & Benchmarks Best Paper Awards）。

杰出论文奖

今年有6篇论文被选为杰出论文。

委员会之所以会选择这些论文，是因为这几篇论文的贡献十分清晰，并且极具洞察力、创造力，还拥有很大的潜力会在相关领域产生持久的影响力。

论文 1：A Universal Law of Robustness via Isoperimetry

论文地址：https://openreview.net/pdf?id=z71OSKqTFh7

本文提出了一个理论模型来解释相比平滑拟合训练数据所需的参数，为什么许多最先进的深度网络需要更多的参数。特别是，在关于训练分布的某些正则性条件下，O(1)-Lipschitz函数在标签噪声尺度以下对训练数据插值所需的参数数量为nd，其中n是训练示例的数量，d是数据的维数。

这一研究结果颠覆了传统认知，之前的想法认为一个函数只需要n个参数来对训练数据进行插值，但为了平滑插值，这一额外的d因子是非常必要的。

该理论简单而优雅，并且与一些关于模型大小的经验性的观察结果一致，这些模型对MNIST分类问题具有非常鲁棒的泛化能力。这项工作也提供了为ImageNet分类开发鲁棒模型所需模型大小的可测试性预测。

文章作者Sébastien Bubeck是微软雷德蒙研究院机器学习基础研究小组的引领者，在普林斯顿大学做了三年副教授后，于2014年加入微软研究院。除此次的NeurIPS 2021，由于他在在线决策（online decision making）、凸优化（convex optimization）和对抗鲁棒性（adversarial robustness）方面的工作，还在多个机器学习会议上获得了最佳论文奖，包括NeurIPS 2018，ALT 2018，COLT 2016，COLT 2009。

论文 2：On the Expressivity of Markov Reward

论文地址：https://openreview.net/pdf?id=9DlCh34E1bN

马尔可夫奖励函数是可以在存在不确定性和使用强化学习的情况下，进行顺序决策的主导框架。本文提供了一个仔细、清晰的阐述，说明了马尔可夫奖励何时足以或何时不足以使系统设计者根据他们对特定行为的偏好或对状态和动作序列的偏好来指定任务。

作者用简单的、说明性的例子证明了对于某些任务，并不存在一个马尔可夫奖励函数可以被指定用来诱导产生期望的任务和结果。同时研究人员证明，在多项式时间内可以判断当前期望的设置是否存在兼容的马尔可夫奖励，如果存在的话，那么也存在多项式时间算法来构造有限决策过程中的这种马尔可夫奖励。

这项工作揭示了奖励设计机制中的问题，并为未来的研究途径提供了思路，探讨了马尔可夫框架何时以及如何足以实现所期望的绩效。

文章作者David Abel目前是DeepMind London的研究科学家，拥有布朗大学计算机科学博士学位和哲学硕士学位。他的主要研究兴趣是借助计算和学习的能力来解决哲学领域的核心问题。此外，他更倾向于解决那些简单但却是最基本的问题，从计算学习理论、计算复杂性和分析哲学中汲取灵感来解决强化学习中的问题。

论文 3：Deep Reinforcement Learning at the Edge of the Statistical Precipice

论文地址：https://openreview.net/pdf?id=uqv8-U4lKBe

严格的方法比较可以加速有意义的科学进步。本文提出了可以提高深度强化学习算法比较的严谨性的实用方法：具体来说，对于新算法的评估应该提供分层的引导置信区间、跨任务运行的性能概况以及四分位数均值。

这篇论文强调，在许多任务的多次运行中，深度强化学习结果的标准方法会使人很难评估一种新算法是否比过去的方法有一致和显著的改进。文中所提出的性能总结只需对每个任务进行少量的计算，这对于许多计算资源有限的实验室来说是十分必要的。

文章作者Rishabh Agarwal是Google Brain在蒙特利尔的研究科学家，曾在Geoffrey Hinton旗下的团队工作过一年。他的主要研究都是基于深度强化学习，最终目标是为了使强化学习的研究更加适合现实世界中的问题。除了NeurIPS 2021，他在ICLR 2021上发表的两篇论文中有一篇作为spotlight进行展示。

论文 4：MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

论文地址：https://openreview.net/pdf?id=Tqx7nJp7PR

这篇文章提出了一种用于比较模型生成文本和人工生成文本分布的发散度度量方法MAUVE。这个想法简单而优雅，只使用了两种文本embedding的连续软KL散度进行度量。

本文提出的MAUVE度量本质上是对连续度量系列的整合，旨在捕获第一类错误（生成不切实际的文本）和第二类错误（没有捕捉到所有可能的人类文本）。

经验实验表明，与以前的散度度量相比，MAUVE能够识别模型生成文本的已知模式，并与人类的判断结果有更好的一致性。在开放式文本生成快速发展的背景下，这篇论文十分重要，研究产生的结果也非常明确。

文章作者Krishna Pillutla目前是华盛顿大学的博士生，于卡内基梅隆大学获得硕士学位，于印度理工学院孟买分校获得学士学位。他的主要研究兴趣包括机器学习、优化及鲁棒性研究，特别是联邦学习、生成建模和结构化预测。

论文 5：Continuized Accelerations of Deterministic and Stochastic Gradient Descents, and of Gossip Algorithms

论文地址：https://openreview.net/pdf?id=bGfDnD7xo-v

本文描述了Nesterov梯度加速方法的「连续型」版本，其中两个独立的向量变量在连续时间内共同演化，这很像以前使用微分方程来理解加速度的方法，但是该方法使用的是由泊松点过程确定的随机时间发生的梯度更新。这种新方法也促使产生了一种随机的离散时间方法，它具有与Nesterov方法相同的加速收敛性。

本文的分析十分清晰，利用连续时间去论证，可以说比之前的梯度加速方法分析更容易理解，还避免了连续时间过程离散化产生的额外误差，这与之前使用连续时间过程理解梯度加速的几种方法形成鲜明对比。

文章作者Mathieu Even是今年九月刚入学巴黎人工智能研究所的博士生，主要研究方向是机器学习理论和算法。主要研究兴趣包括各种各样形式的优化算法（分布式，去中心化的，随机的）以及与联邦学习相关的课题、流言算法和高维统计。

论文 6：Moser Flow: Divergence-based Generative Modeling on Manifolds

论文地址：https://openreview.net/pdf?id=qGvMv3undNJ

本文提出了一种在黎曼流形上训练连续归一化流（CNF）生成模型的方法。其中心思想是利用1965年Moser的研究结果，利用满足几何正则性条件的一类受限微分方程来刻画CNF（也称之为流形上的方向保持自变量）的解，并利用目标密度函数的散度来明确定义。

本文所提出的Moser Flow方法使用这种解决方案来开发基于参数化目标密度估计器（可以是神经网络）的CNF方法。训练过程相当于是简单地优化密度估计器的散度，从而无需运行ODE求解器（标准反向传播训练需要）。

实验表明，与以前的CNF工作相比，该工作提出的方法训练时间更快，测试性能更好，并且能够对具有非恒定曲率的隐式表面（如斯坦福兔子模型）的密度进行建模。而且，这种利用几何规律性条件来避开昂贵的反向传播训练的方法可能具有更广泛的意义。

文章的作者Noam rozen于以色列的魏茨曼科学研究所取得理学硕士学位，目前在该研究所做研究助理。

时间检验奖

获得NeurIPS 2021时间检验奖的是「Online Learning for Latent Dirichlet Allocation」，作者为Matthew Hoffman、David Blei和Francis Bach。

论文地址：https://proceedings.neurips.cc/paper/2010/file/71f6278d140af599e06ad9bf1ba03cb0-Paper.pdf

本文提出了一种基于随机梯度变异的推理程序，用于在非常大的文本语料库上训练Latent Dirichlet Allocation（LDA）模型。

在理论方面，研究表明该训练程序可以收敛于局部最优。在经验方面，作者展示了LDA首次可以在几十万个文档的文本体上进行训练，使其成为「大数据」问题的实用技术。

这个想法在ML界产生了很大的影响，在这篇论文之后，就再也没有充分的理由去使用全批次训练程序进行变异推理了。

Matthew Hoffman目前是谷歌的高级研究科学家，曾在Adobe创意技术实验室任高级研究科学家。

这篇论文发表时，他正在普林斯顿大学计算机科学专业攻读博士学位，在声音实验室（Sound Lab）与David Blei教授共同研究。随后他又去了哥伦比亚大学统计系做博士后。

他的主要研究重点是概率建模和近似推理算法。应用场景包括音乐信息检索、语音增强、主题建模、学习排名、计算机视觉、用户界面、用户行为建模、社交网络分析、数字成像和天文学。他也是著名的统计建模包Stan的共同创建者。

10年检验，去年为9，今年11

通常来说，时间检验奖会颁给10年前在NeurIPS发布的论文。不过在2020年，委员会决定扩展时间范围，并选择了一篇2011年的论文。因此在2021年的评选中，委员会决定将重点放在2010年的论文中。

经过筛选，有16篇候选的论文超过了500次引用量的基准线。委员会在经过两周的阅读之后，有一篇论文恰好得到了4名成员的一致支持。由于并没有出现有竞争力的「亚军」，所以委员会一致决定将「Online Learning for Latent Dirichlet Allocation」评选为今年的时间检验奖。

数据集和基准最佳论文奖

今年，NeurIPS 2021推出了新的数据集和基准评奖赛道，有两篇文章获得该赛道最佳论文奖。

论文 1：Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research