论文《Vertical Federated Learning: Concepts, Advances, and Challenges》阅读
今天带来的是一篇综述,主题关于纵向联邦,综述组织合理,内容丰富,而且对新手非常友好,值得推荐!
论文概况
论文由清华大学 AIR 刘洋 等人完成,发表在TKDE上。
论文链接:TKDE
纵向联邦
如图所示,
- 横向联邦 针对的是不同的sample具备相同的特征空间,主要干的事是做梯度的聚合、计算等内容。
- 纵向联邦(狭义)是指不同的 sample,但是具备相同的特征空间,主要目的是为了将不同平台下的重叠用户的特征利用最大化。
- 特征迁移学习 就是两者之间,重叠的 sample 有限,交叉的特征也不是全部,这种情况就是特征迁移的典型场景。
具体比较也可以如表所示:
此外,从应用场景出发,FL也可分类为:cross-silo 和 cross-device。
- Cross-Silo 就是指为了解决数据孤岛问题,让不同的组织、公司数据利用最大化。既可以包含横向、也可以包含纵向。
- Cross-Device 是指跨设备的联邦学习,这种一般是指横向,例如在不同的设备上聚合用户的梯度、模型等。
VFL框架介绍
问题定义
问题形式化如下所示:
min Θ ℓ ( Θ ; D ) ≜ 1 N ∑ i = 1 N f ( Θ ; x i , y i ) + λ ∑ k = 1 K γ ( Θ ) (1) \min _{\boldsymbol{\Theta}} \ell(\boldsymbol{\Theta} ; \mathcal{D}) \triangleq \frac{1}{N} \sum_{i=1}^N f\left(\boldsymbol{\Theta} ; \mathbf{x}_i, y_i\right)+\lambda \sum_{k=1}^K \gamma(\mathbf{\Theta}) \tag{1} Θminℓ(Θ;D)≜N1i=1∑Nf(Θ;xi,yi)+λk=1∑Kγ(Θ)(1)
典型场景下,VFL 具有 K K K 方。
- 其中下标为 k k k, k ∈ [ 1 , K − 1 ] k \in [1, K-1] k∈[1,K−1] 的是被动方 (passive party),只具有feature,不具有label。
- 只有主动方(active party)具有label,运算在主动方一方完成,下标为 K K K。
γ ( ⋅ ) \gamma(\cdot) γ(⋅) 是 函数正则化。 f ( ⋅ ) f(\cdot) f(⋅) 表示 任务的预测函数。
在VFL场景下,任意数据被 K K K 方分割开,共同构成数据的特征空间,i.e.,
{ x i , k ∈ R d k } k = 1 K \{\mathbf{x}_{i,k} \in \mathbb{R}^{d_{k}}\}_{k=1}^{K} {
xi,k∈Rdk}k=1K。被动方只具有feature,即
D k ≜ { x i , k } i = 1 N ∀ k ∈ [ 1 , K − 1 ] \mathcal{D}_k \triangleq\left\{\mathbf{x}_{i, k}\right\}_{i=1}^N \forall k \in [1, K-1] Dk≜{
xi,k}i=1N∀k∈[1,K−1]。主动方具备feature 和 label,如下: D K ≜ { x i , K , y i , K } i = 1 N \mathcal{D}_K \triangleq\left\{\mathbf{x}_{i, K}, y_{i, K}\right\}_{i=1}^N DK≜{
xi,K,yi,K}i=1N
模型可以分为 local 部分 和 global 部分,分别用于每个 Party 各自的计算 和 汇总到 Active Pary 进行预测任务,将 Θ \boldsymbol{\Theta} Θ 重写, F K ( ⋅ ) \mathcal{F}_K(\cdot) FK(⋅) 表示global model,参数集合表示为 ψ K \psi_K ψK