【论文笔记】Multi-Task Learning as a Bargaining Game

最新推荐文章于 2024-09-02 20:11:28 发布

xhyu61

最新推荐文章于 2024-09-02 20:11:28 发布

阅读量484

点赞数 19

分类专栏：机器学习学习笔记论文笔记文章标签：论文阅读人工智能深度学习

本文链接：https://blog.csdn.net/xhyu61/article/details/141817875

版权

机器学习同时被 3 个专栏收录

36 篇文章 0 订阅

订阅专栏

学习笔记

31 篇文章 0 订阅

订阅专栏

论文笔记

22 篇文章 0 订阅

订阅专栏

Abstract

本文将多任务学习中的梯度组合步骤视为一种讨价还价式博弈(bargaining game)，通过游戏，各个任务协商出共识梯度更新方向。
在一定条件下，这种问题具有唯一解(Nash Bargaining Solution)，可以作为多任务学习中的一种原则方法。
本文提出Nash-MTL，推导了其收敛性的理论保证。

1 Introduction

大部分MTL优化算法遵循一个通用方案。

计算所有任务的梯度 $g_1,g_2,\cdots,g_K$
使用某种聚合算法 $\mathcal{A}$ ，聚合梯度，得到联合梯度 $\Delta=\mathcal{A}(g_1,\cdots,g_K)$ 。最后采用单梯度优化算法更新模型参数。
目前还没有原则性的、公理化的聚合方法。

本文将梯度组合视为一个合作讨价还价式博弈(cooperative bargaining game)来解决，每个玩家代表多任务中的一个任务，每个玩家的收益(utility)是梯度，所有玩家通过协商找到彼此达成一致的方向。
这个情景让讨价还价式博弈可以使用，从公理化的角度分析该问题。

在一定的公理下，讨价还价式博弈有唯一的解，称为纳什讨价还价解(Nash Bargaining Solution)，这个解式最公平的，是最优的。

贡献：

本文刻画了MTL的纳什讨价还价解，推导了一个有效的算法逼近这个值。
从理论分析了本文方法，在凸和非凸的情况下建立了收敛性保证。
实验表明Nash-MTL取得了最先进的效果。

2 Background

2.1 Pareto Optimality

MTL优化问题是多目标优化问题(multiple-objective optimization, MOO)的一个特例。
给定目标函数 $\ell_1,\cdots,\ell_K$ ，一个解 $x$ 的效果可以通过目标值 $(\ell_1(x),\cdots,\ell_K(x))$ 向量来表示。
MOO的主要性质是：由于向量上不存在自然的线性排序，因此并不总是可以比较解，因此没有明确的最优值。

我们说一个解 $x$ 优于 $x^{'}$ ，当且仅当 $x$ 在一个或多个任务上更好，而在其他任务上不差。
没有其他解更优的解，称为Pareto optimal，所有这样的解的集合成为Pareto front。在没有额外假设或用户偏好先验的情况下，无法从Pareto optimal中挑出最优解。

对于非凸问题，如果某点在包含它的某个开集内是Pareto最优的，则定义该点为局部Pareto最优。
如果某点存在梯度的凸组合，且梯度为0，则该点为Pareto stationary。Pareto stationary是Pareto optimal的必要条件。

2.2 Nash Bargaining Solution

在一个讨价还价博弈问题中，有 $K$ 个玩家，每个玩家的收益函数 $u_i:A\cup\{D\}\rightarrow\mathbb{R}$ ，这个是每个玩家都希望最大化的。其中 $A$ 是可能达成的协议的集合， $D$ 是不能达成协议的谈判破裂点，如果玩家没能达成协议，则玩家会默认 $D$ 。

定义可能的收益集 $U=\{(u_1(x),\cdots,u_K(x)):x\in A\subset\mathbb{R}^K$ ， $d=(u_1(D),\cdots,u_K(D))$ 。
假设 $U$ 是凸紧的， $U$ 中存在一个点严格优于 $d$ ，称为存在 $u\in U$ ，使得 $\forall i: u_i>d_i$ 。

对于这样的收益集 $U$ ，两人讨价还价问题存在唯一解，该解满足以下性质或公理：Pareto optimality，对称性，无关方案独立性，仿射变换不变性。

Axiom 2.1 Pareto optimality

被认同的方案不能劣于其他方案。

Axiom 2.2 Symmetry

交换玩家的顺序后，最优解应当不变。

Axiom 2.3 Independence of irrelevant alternatives(IIA)

将收益集 $U$ 扩大到 $\tilde{U}\supsetneq U$ ，解决方案在原始集合 $U$ 中， $u^*\in U$ ，那么最优解将仍是 $u^*$ 。

Axiom 2.4 Invariance to affine transformation

将收益函数 $u_i(x)$ 变换成 $\tilde{u}_i(x)=c_i\cdot u_i(x)+b_i$ ， $c_i>0$ ，如果原始最优解的收益为 $(y_1,\cdots,y_k)$ ，那么变换后的最优解是 $(c_1y_1+b_1,\cdots,c_ky_k+b_k)$ 。

满足以上公理的唯一点被称为Nash bargaining solution，为
$u*=\arg\max_{u\in U}\sum_i\log(u_i-d_i) \ s.t. \forall i:u_i>d_i\tag{1}$

3 Method

3.1 Nash Bargaining Multi-Task Learning

给定一个MTL优化问题和模型参数 $\theta$ ，目标是在以零点为中心，半径为 $\epsilon$ 的球 $B_\epsilon$ 内找到一个更新向量 $\Delta\theta$ 。
在讨价还价博弈情景下，可达成的协议为 $B_\epsilon$ 集合，谈判破裂点在零点（原参数 $\theta$ 不更新）。
定义每个玩家的收益函数为 $u_i(\Delta\theta)=g_i^T\Delta\theta$ ，其中 $g_i$ 是模型参数为 $\theta$ 时任务 $i$ 的损失梯度。由于收益集是凸紧的，且收益是线性的，可以得出：可能的收益集合也是凸紧的。

基于主要假设，如果 $\theta$ 不是Pareto stationary，那么梯度是线性无关的。
在此猜想下，谈判崩裂点 $\Delta\theta=0$ 是列于 $B_\epsilon$ 中其他的解的。
如果 $\theta$ 不在Pareto front中，那么Nash bargaining solution具有如下形式：

Claim 3.1

令 $G$ 为一个 $d\times K$ 的矩阵，该矩阵第 $i$ 列为梯度 $g_i$ 。
$\arg\max_{\Delta\theta\in B\epsilon}\sum_i\log(\Delta\theta^T g_i)$ 的解是 $\sum_i \alpha_ig_i$ ，其中 $\alpha\in\mathbb{R}_+^K$ 是 $G^TG\alpha=1/\alpha$ 的解， $1/\alpha$ 是逐元素倒数操作。

proof

该目标函数的导数是 $\sum_{i=1}^K \frac{1}{\Delta\theta^T g_i}g_i$ 。对于所有 $\Delta\theta$ 向量， $\forall i:\Delta\theta^T g_i>0$ ，每个任务的收益函数以 $\Delta\theta$ 的范数单调递增，显然 $B_\epsilon$ 球面上的解肯定是最优的。因此，最优点上的梯度 $\sum_{i=1}^K \frac{1}{\Delta\theta^T g_i}g_i$ 一定是径向的，如 $\sum_{i=1}^K\frac{1}{\Delta\theta^T g_i}g_i=\lambda \Delta\theta$ 。

由于梯度之间互相独立，有 $\Delta\theta=\sum_i\alpha_i g_i$ ， $\forall i:\frac{1}{\Delta\theta^T g_i}=\lambda \alpha_i$ 。（向量之间线性无关）
下降方向内积为正，因此可以得到 $\lambda>0$ 。设定 $\lambda=1$ 来确定 $\Delta\theta$ （范数可能更大）的方向。

现在找到bargaining solution的问题已经简化为找到一个 $\alpha\in\mathbb{R}^K$ ， $\alpha_i>0$ ，使得 $\forall i:\Delta\theta^T g_i=\sum_j\alpha_j g_j^T g_i=\frac{1}{\alpha_i}$ ，这等价于 $G^TG\alpha=1/\alpha$ ，其中 $1/\alpha$ 是逐元素取倒数。

现在为该解提供一些直观的说明。
首先，如果所有的 $g_i$ 是互相正交的，则有 $\alpha_i=1/||g_i||$ ， $\Delta\theta=\sum \frac{g_i}{||g_i||}$ 。这是明显的尺度不变解。
如果非相互正交，可得：
$\alpha_i||g_i||^2+\sum_{j\neq i}\alpha_j g_j^T g_i=\frac{1}{\alpha_i}\tag{2}$
$\sum_{j\neq i}\alpha_j g_j^T g_i=(\sum_{j\neq i}\alpha_j g_j)^T g_i$ 可以被认为是任务 $i$ 对其他任务的影响。

如果这个值是正值，说明存在正向影响，其他任务的梯度有助于第 $i$ 项任务。
如果这个值是负值，说明存在负面影响，其他任务的梯度有碍于第 $i$ 项任务。

当该值为负值时，Eq.2等式左边变小，需要通过 $\alpha_i$ 变大来补偿。
当该值为正值时， $\alpha_i$ 变小。

3.2 Solving $G^T G\alpha=1/\alpha$

本节描述如何通过一系列凸优化问题有效逼近 $G^TG\alpha=1/\alpha$ 的最优解。

定义 $\beta_i(\alpha)=g_i^TG\alpha$ ，希望找到一个 $\alpha$ 使得 $\forall i, \alpha_i=1/\beta_i$ ，或等价于 $\log(\alpha_i)+\log(\beta_i(\alpha_i))=0$ 。
令 $\varphi_i(\alpha)=\log(\alpha_i)+\log(\beta_i(\alpha))$ ， $\varphi(\alpha)=\sum_i\varphi_i(\alpha)$ ，目标是找到非负 $\alpha$ 使得 $\forall i,\varphi_i(\alpha)=0$ 。于是优化问题变成：
$\min_\alpha\sum_i\varphi_i(\alpha),\ s.t.\forall i, -\varphi_i(\alpha)\leq 0, \ \alpha_i>0\tag{3}$
约束是凸的且线性的，但是目标函数是凹的。首先尝试解决下面的凸目标函数：
$\min_\alpha\sum_i\beta_i(\alpha),\ s.t.\forall i, -\varphi_i(\alpha)\leq 0, \ \alpha_i>0\tag{4}$
这里最小化 $\beta_i=g_i^TG\alpha\geq 1/\alpha_i$ 约束下的 $\sum_i\beta_i$ 。虽然这个目标函数并不等价于原始问题，但却非常有效。很多情况下，得到的 $\varphi(\alpha)=0$ ，符合需求。

为了进一步近似，考虑下面的问题：
$\min_\alpha\sum_i\beta_i(\alpha)+\varphi(\alpha),\ s.t.\forall i, -\varphi_i(\alpha)\leq 0, \ \alpha_i>0\tag{5}$
在目标函数中加入 $\varphi(\alpha)$ 可以进一步减小 $\varphi(\alpha)$ ，虽然这可能导致问题是非凸的。但此时解可以被迭代地改进，通过将凹项 $\varphi(\alpha)$ 替换为其一阶近似 $\tilde{\varphi}_\tau(\alpha)=\varphi(\alpha^{(\tau)})+\nabla\varphi(\alpha^{(\tau)})^T(\alpha-\alpha^{(\tau)})$ （泰勒展开）。其中， $\alpha^{(\tau)}$ 是第 $\tau$ 轮迭代的解。这里只替代目标函数中的 $\varphi$ ，不替代约束中的。由于没有改变约束，对任意的 $\tau$ ， $\alpha^{(\tau)}$ 总是满足原问题的约束。

最后，下面的命题表明，原始目标随 $\tau$ 单调递减：

Proposition 3.2

在Eq.5的优化问题中，将目标函数表示为 $\varphi(\alpha)=\sum_i\beta_i(\alpha)+\varphi(\alpha)$ 。于是对于所有 $\tau>1$ ， $\varphi(\alpha^{(\tau+1)})\leq \varphi(\alpha^{\tau})$ 。

3.3 Practical Speedup

许多主流MTL方法的缺点是需要所有任务梯度来获取联合更新的方向。当任务数量 $K$ 很大时，非常耗费计算资源。

实际操作中发现，使用特征级梯度作为共享参数的替代会显著降低本文方法的性能。
本文提议：每隔几次迭代，更新一次梯度权重 $\alpha^{(t)}$ ，而不是每次迭代。这种方法在维持原有效果的同时显著降低运行时间。

Algorithm 1 Nash-MTL

输入：初始参数向量 $\theta^{(0)}$ ，可微损失函数 $\{\ell_i\}_{i=1}^K$ ，学习率 $\eta$ 。

对于每一轮迭代 $t=1,\cdots,T$ ：

计算任务梯度 $g_i^{(t)}=\nabla_{\theta^{(t-1)}}\ell_i$
将矩阵 $G^{(t)}$ 的每一列设置为 $g_i^{(t)}$
通过 $(G^{(t)})^TG(t)\alpha=1/\alpha$ 获得 $\alpha^{(t)}$
更新参数 $\theta^{(t)}=\theta^{(t)}-\eta G^{(t)}\alpha^{(t)}$

返回： $\theta^{(T)}$

5 Analysis

现在分析本文方法在凸和非凸情况下的收敛性。
即使是单任务，非凸优化也可能只收敛到一个稳定点，因此需要证明本文方法可以收敛到Pareto stationary点，即梯度的某个凸组合为0的点。如前所述，仍然假设在非Pareto stationary点时，梯度之间互相独立。这个假设排除了如两个相同任务的边缘情况。

通过将Assumption 5.1中的Pareto stationary替换成局部Pareto optimality，可以证明算法收敛到局部Pareto optimal point。
这一假设具有重要意义，意味着可以避免任意特定任务中的局部最大值和鞍点。

Assumption 5.1

对于由本文算法得到的序列 $\{\theta^{(t)}\}_{t=1}^\infty$ ，集合中任意一点和任意极限处的梯度向量 $g_1^{(t)},\cdots,g_K^{(t)}$ 都是线性无关的，除非该点是Pareto stationary。

Assumption 5.2

假设所有损失函数都是可微的，有下界，并且所有的次级集合都是有界的。输入域是开放且凸的。

Assumption 5.3

假设所有损失函数都是光滑的：
$||\nabla\ell_i(x)-\nabla\ell_i(y)||\leq L||x-y||\tag{6}$

Theorem 5.4

令 $\{\theta^{(t)}\}_{t=1}^\infty$ 为由 $\theta^{(t+1)}=\theta^{(t)}-\mu^{(t)}\Delta\theta^{(t)}$ 生成的参数序列， $\Delta\theta^{(t)}=\sum_{i=1}^K\alpha_i^{(t)}g_i^{(t)}$ 是Nash bargaining solution $(G^{(t)})^T G^{(t)}\alpha^{(t)}=1/\alpha^{(t)}$ 的解。
设 $\mu^{(t)}=\min_{i\in[K]}\frac{1}{LK\alpha_i^{(t)}}$ 。于是，序列 $\{\theta^{(t)}\}_{t=1}^\infty$ 存在一个子序列收敛于Pareto stationary point $\theta^*$ 。进一步地，所有的损失函数 $(\ell_1(\theta^{(t)}),\cdots,\ell_K(\theta^{(t)}))$ 也收敛到 $(\ell_1(\theta^*{(t)}*),\cdots,\ell_K(\theta^*{(t)}*))$ 。