ICML 2022 | 腾讯AI Lab入选论文解读

感谢阅读腾讯 AI Lab 微信号第 150 篇文章。本文为腾讯 AI Lab 入选 ICML 2022 的 7 篇论文解读。

ICML(International Conference on Machine Learning,国际机器学习大会)是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议,也是CCF-A类学术会议。2022 届会议正于本周召开,今年共收到 5630 篇投稿,接收1117 篇 short oral,118篇 long oral,录用率为21.94%。

腾讯 AI Lab 共 7 篇论文入选,涵盖机器学习领域的测试时适应 (TTA) 、图神经网络 (GNN) 、迁移学习,计算机视觉领域的深度学习网络结构,自然语言处理领域的因果关系推断等主题。另有一项游戏 AI 相关工作,提出「对手建模」算法框架GSCU,可针对对手风格调整游戏策略。本文为详细解读。

机器学习

高效无遗忘的测试时模型自适应

Efficient Test-Time Model Adaptation without Forgetting

本文由腾讯 AI Lab 主导,与华南理工大学、新加坡国立大学合作完成,被会议接受为 spotlight 论文。可在不需要源域数据的情况下,根据单个/batch无标签测试样本对模型进行更新,以提升显著提升其泛化性能。

测试时适应 (TTA) 旨在利用无标签的测试数据对模型进行自适应更新,以克服训练和测试数据之间的潜在分布变化。当测试环境频繁变化时,此任务对于深度模型尤为重要。尽管最近已有许多工作尝试来解决这项任务,但仍然面临如下两个实际挑战:1)现有方法必须对每个测试样本执行反向计算,使得预测成本较高;2)虽然现有的 TTA方法能够显著提高模型在分布外数据上的测试性能,但更新后的模型往往会在分布内测试数据上出现严重的性能下降(称为灾难性遗忘)。

本文指出,并非所有测试样本对模型适应的贡献度都相同,高熵样本可能会导致噪声梯度,从而不利于模型更新。受此启发,作者提出了一个主动样本选择标准来识别可靠和非冗余的测试样本,并只利用选择到样本更新模型以最小化测试时适应的熵损失。此外,为缓解遗忘问题,该项工作引入了 Fisher 正则化器来约束重要的模型参数在更新过程中不发生剧烈变化,其中 Fisher 重要性是根据测试样本及其生成的伪标签估计得到。在 CIFAR-10-C、ImageNet-C 和 ImageNet-R 上进行的大量实验验证了该方法的有效性。

8f72d27ab718017263dd5f1676f089f6.png

pGNN:基于 p-拉普拉斯算子的 GNN 模型

p-Laplacian Based Graph Neural Networks

本文由腾讯 AI Lab 独立完成,可以解决图学习领域棘手的异嗜图问题。图神经网络 (GNN) 在图上的半监督节点分类方面表现出卓越的性能,因为它们能够同时利用节点特征和拓扑信息。然而,大多数 GNN 隐含地假设图中节点及其邻居的标签是相同或一致的,这在异嗜图中不成立,其中相连节点的标签可能不同。因此,当拓扑对于标签预测没有帮助时,普通的 GNN 可能比简单地在每个节点上应用多层感知器 (MLP) 的效果要差得多。

为了解决上述问题,本文提出了一种新的基于 p-拉普拉斯算子的 GNN 模型,称为 pGNN,其消息传递机制源自离散正则化框架,理论上可以解释为在谱域上定义的多项式图滤波器的近似值p-拉普拉斯算子。谱分析表明,我们提出的新的消息传递机制同时作为低通和高通滤波器工作,从而使 pGNN 在同嗜图和异嗜图上都有效。

对现实世界和合成数据集的实证研究验证了我们的发现,并证明 pGNN 在异嗜性基准上的性能显著优于几种最先进的 GNN 架构,同时在同质性基准上取得了可比性能。此外,pGNN 可以自适应地学习聚合权重,并且对噪声边具有鲁棒性。   

372b91f73f610732347b53560613041b.png

图神经网络的局域数据增强方法

Local Augmentation for Graph Neural Networks

本文由腾讯 AI Lab 主导,与斯坦福大学,香港科技大学,宾夕法尼亚州立大学合作完成,提出了一种全新的基于条件生成的图神经网络的数据增强方法,可以作为即插即用的模块嵌入到任意图神经网络的建模流程中,从而显著提高模型性能;适用于药物发现、电商推荐、社交网络等广泛的应用场景。

在图结构的数据及任务上,图神经网络(GNN)已取得了引人注目的性能。GNN的关键设计思路在于通过将每个节点的邻域信息进行聚合,来得到对该节点信息量更为丰富的表征。然而,对于仅有少量邻居的节点,如何将其邻域信息进行有效聚合从而得到最优的表征,目前尚未有定论。

针对该问题,本文提出了一种简单而有效的数据增强方法,局域数据增强,即通过学习邻域节点关于中心节点表征的条件概率分布,生成更丰富的特征,来增强GNN的表达能力。局域数据增强是一个具有广泛适用性的框架,可以被即插即用地嵌入到任意的GNN模型中。本方法从学习到的条件概率中采样得到额外的关于每个节点的特征向量,并作为扩充后的数据用于模型的训练。

通过大量实验和分析,我们证明了本方法可以在多种图结构数据和不同图神经网络上带来一致性的效果提升。举例来说,在Cora,Citeseer和Pubmed数据集上,加入了局域数据增强的图卷积神经网络(GCN)和图注意力网络(GAT)在测试时的平均准确率可以分别提升3.4%及1.6%。此外,在大型图数据集OGB上的实验也证明了,我们的方法相比其他在图的特征、结构层面进行数据增强的方法,在图节点分类任务上具有更优的效果。

8063d0b6ecf4e0bd1d2720e231fec82b.png

快捷的可迁移性估计

Frustratingly Easy Transferability Estimation

本文由腾讯 AI Lab 主导,与香港城市大学、香港科技大学合作完成,在无源域数据、不进行模型训练的情况下,根据预训练模型提取的特征和标签之间的基于编码信息率的互信息估计可迁移性。

可转移性估计是转移学习中的一项重要工具,它可以选择预训练模型及模型中进行迁移的层数,使目标任务的性能最大化并防止负面转移。现有的估计算法要么需要对目标任务进行迁移学习训练,要么不能评估模型各层之间的可转移性。为此,我们提出了一个简单、高效和有效的可转移性估计算法,名为TransRate。通过对目标任务的数据作单次forward提取特征,TransRate根据数据的特征和它们的标签之间的互信息估计可转移性。

在深度学习中,互信息的估计通常耗费很多计算资源或时间。为了解决互信息估计的问题,我们使用coding rate(编码信息率)作为Entropy(熵)的替代估计。从特征表示的角度来看,所得到的TransRate评估了预训练特征的完整性,即特征是否包含目标任务的足够信息,和紧凑性,即每一类的特征是否足够紧凑,以便进行良好的概括。我们从理论上分析了TransRate与迁移学习后的效果联系,并对32个预训练模型和16个目标任务进行实验,效果超过了现有的算法。

5adbd5d5a5d444ee77fc5719e9735b98.png

计算机视觉

动态混合的视觉MLP结构

DynaMixer: A Vision MLP Architecture with Dynamic Mixing

本文由腾讯AI Lab与腾讯数平、清华大学深圳研究生院、北京大学深圳研究生院合作完成,主题为探索深度学习网络结构本质,证明多层感知机能够取得优异识别效果。

最近,基于多层感知机的视觉模型在主流视觉识别任务上取得了优异的效果。与视觉Transformer和卷积神经网络不同,多层感知机模型表明在语料和通道间只用简单的信息融合操作就可以获得很好的表征能力。然而,现有的模型均为静态地进行信息融合,从而缺乏依据不同内容进行自适应混合的能力。因此,现有的信息融合能力并不够有效。

本文提出一个快速的基于多层感知机的网络结构,来动态地解决信息融合问题。作者提出一个流程来动态的生成混合矩阵,该矩阵由输入语料的内容动态生成。为了减轻时间复杂度和提升鲁棒性,该项工作采用一个降维的方法和一个多层融合的机制来实现。

本文提出的模型(97M)能够在 ImageNet 数据集上不利用外部训练数据的情况下获得84.3%的准确率,在现有的基于多层感知机的模型中脱颖而出。当我们降低模型参数量到26M时,依然能够取得82.7%的准确率,超越现有同参数量的所有模型。

5b400c1c8c2c16a328a2035181c9fc8b.png

自然语言处理

常识因果推断

Causal Inference Principles for Reasoning about Commonsense Causality

本文由腾讯 AI Lab 与宾夕法尼亚大学合作完成,提出了一种全新的基于语言模型的常识因果关系识别框架。

常识因果推断旨在识别日常生活事件之间的因果关系,虽然这个研究课题对学术和实际应用都有巨大的意义,但我们都一直欠缺一种理论框架。该项工作提出了一种基于co-founding的框架。简单来说,我们利用语言模型中对于事件之间时序模型的记忆来推导出他们之间的因果关系。整套系统不需要任何训练,并在测试数据上取得了良好的效果。  

27e22a75ab4ed4518878a7bf7ed9fcec.png

游戏AI

「对手建模」算法框架GSCU:见招拆招的动态智能策略

Greedy when Sure and Conservative when Uncertain about the Opponents

本文由腾讯AI Lab「绝艺」团队独立完成。当前业内知名的竞技游戏AI,在与人对抗过程中往往采取固定的策略,这可能会带来两方面的性能损耗:[1] 如果这个“固定”策略有漏洞并且一旦被人发现,那么这个漏洞就可以被一直复现。换句话说,采取固定策略的AI容易被人“套路”。[2] 采取固定策略的AI不能针对不同对手采取不同策略来获取更高的收益。例如,在二人石头-剪刀-布游戏中,如AI能针对有出剪刀倾向的对手多出石头,针对有出石头倾向的对手多出布,那么理论上AI能有更高的性能上限。

结合Bandit思想,本文提出一种新的对手建模框架:Greedy when Sure and Conservative when Uncertain(GSCU)。GSCU总体构思在于:当针对对手能获得更高收益时,那么AI就采用一个实时计算的“激进”策略(Greedy Policy)来针对对手;反之,AI采用一个离线计算好的,最坏情况最好的,“保守”策略(Conservative Policy)。

如下图所示,GSCU包含两个离线训练模块,和一个在线测试模块。

47dbc52203cc37a5361378fb561dc181.png

离线训练模块一:对手策略embedding学习。该模块尝试学习一个variational embedding空间来表征任何一个可能的对手策略。该方法具体采用 Conditional Variational Autoencoder (CVAE)的架构:

b7e57728091a54b72540064bfbeb4810.png

就像经典词向量方法 Word2Vec 可以提升后续各种NLP任务的效率, 我们的策略 embedding 学习方法 Policy2Emb 也有望提升所有需要对 policy 做表征的相关任务。

7496be4cf6b733662df576db83db49e2.png

本文策略embedding学习方法Policy2Emb与经典词向量方法Word2Vec的一个对照

离线训练模块二:Conditional Reinforcement Learning (RL)。该模块尝试学习一个 conditional 策略,对于给定的一个对手策略的 embedding z,可以得到一个针对该对手的策略:

2c8d18183f4bc2e701eb2e7847dd6e10.png

在线测试模块:在线对手策略 embedding 估计,保守&激进策略切换。该模块一方面尝试在线估计当前对手的策略 embedding,另一方面基于 bandit 算法 EXP3 在固定的“保守”策略和实时计算的“激进”策略两者之间动态切换:

384906007edef8f4db1015725c1fbc1d.png

同时,我们可以证明:[1] “激进”策略的对战效果有下限保证; [2] 相比不做对手建模(也就是采用一个“固定”策略),我们的对手建模方法 GSCU 不带来负作用,并有很大可能带来正收益。

ddacd2d3defa017ea341aeb80e8615bf.png

30a7fba0e915a2decf1429749cb77ff8.png

在对比主流方法的基础上,GSCU 在经典扑克游戏 Kuhn poker 和 particle 环境 Predator Prey 上验证了其优越性:

bb3b9757c9624e0b7ae1b69f235c6666.png

不同方法应对不同未知对手的平均性能和最差性能对比

策略 embedding 学习算法 Policy2Emb 的实验结果:

d6755027d00735a4f837e1a286ab384a.png

Policy2Emb得到的策略embedding空间(左)和Kuhn poker真实的策略参数空间(右)

GSCU 中 conditional RL 的学习效果:

2bf9f90612a0b5fa0f2f123377c7475f.png

基于Policy2Emb学习到的对手策略embedding,conditional RL学习到的针对性策略可以高效应对不同的对手

GSCU 的在线对手策略 embedding 估计效果:

415d4531879eb56d7b6088f645ace9cd.png

基于Policy2Emb学习到的probabilistic decoder,GSCU在策略embedding空间做Bayesian inference可以更好地估计对手策略。

6fa5dde8a05f68ea2b52d53c4e544510.jpeg

* 欢迎转载,请注明来自腾讯AI Lab微信(tencent_ailab)

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值