论文《Vertical Federated Learning: Concepts, Advances, and Challenges》阅读

行者^_^煜煜

于 2024-12-24 21:57:03 发布

阅读量865

点赞数 7

分类专栏：论文阅读文章标签：联邦学习机器学习

本文链接：https://blog.csdn.net/xingzhe123456789000/article/details/144701554

版权

论文《Vertical Federated Learning: Concepts, Advances, and Challenges》阅读

论文概况
纵向联邦
VFL框架介绍
- 问题定义
- VFL 训练协议
对通信效率的优化
对性能的优化
安全性
其他
总结

今天带来的是一篇综述，主题关于纵向联邦，综述组织合理，内容丰富，而且对新手非常友好，值得推荐！

论文概况

论文由清华大学 AIR 刘洋等人完成，发表在TKDE上。
论文链接：TKDE

纵向联邦

FLs
如图所示，

横向联邦 针对的是不同的sample具备相同的特征空间，主要干的事是做梯度的聚合、计算等内容。
纵向联邦（狭义）是指不同的 sample，但是具备相同的特征空间，主要目的是为了将不同平台下的重叠用户的特征利用最大化。
特征迁移学习 就是两者之间，重叠的 sample 有限，交叉的特征也不是全部，这种情况就是特征迁移的典型场景。

具体比较也可以如表所示：
Comparisons of FLs

此外，从应用场景出发，FL也可分类为：cross-silo 和 cross-device。

Cross-Silo 就是指为了解决数据孤岛问题，让不同的组织、公司数据利用最大化。既可以包含横向、也可以包含纵向。
Cross-Device 是指跨设备的联邦学习，这种一般是指横向，例如在不同的设备上聚合用户的梯度、模型等。

VFL框架介绍

问题定义

问题形式化如下所示：
$\min _{\boldsymbol{\Theta}} \ell(\boldsymbol{\Theta} ; \mathcal{D}) \triangleq \frac{1}{N} \sum_{i=1}^N f\left(\boldsymbol{\Theta} ; \mathbf{x}_i, y_i\right)+\lambda \sum_{k=1}^K \gamma(\mathbf{\Theta}) \tag{1}$

典型场景下，VFL 具有 $K$ 方。

其中下标为 $k$ ， $\in [1, K-1]$ 的是被动方 （passive party），只具有feature，不具有label。
只有主动方（active party）具有label，运算在主动方一方完成，下标为 $K$ 。

$\gamma(\cdot)$ 是函数正则化。 $f(\cdot)$ 表示任务的预测函数。

在VFL场景下，任意数据被 $K$ 方分割开，共同构成数据的特征空间，i.e.,
$\{\mathbf{x}_{i,k} \in \mathbb{R}^{d_{k}}\}_{k=1}^{K}$ 。被动方只具有feature，即
$\mathcal{D}_k \triangleq\left\{\mathbf{x}_{i, k}\right\}_{i=1}^N \forall k \in [1, K-1]$ 。主动方具备feature 和 label，如下： $\mathcal{D}_K \triangleq\left\{\mathbf{x}_{i, K}, y_{i, K}\right\}_{i=1}^N$

模型可以分为 local 部分和 global 部分，分别用于每个 Party 各自的计算和汇总到 Active Pary 进行预测任务，将 $\boldsymbol{\Theta}$ 重写， $\mathcal{F}_K(\cdot)$ 表示global model，参数集合表示为 $\psi_K$