4. eFL-Boost：Efficient Federated Learning for Gradient Boosting Decision Trees

最新推荐文章于 2025-05-16 14:37:52 发布

Dataer__

最新推荐文章于 2025-05-16 14:37:52 发布

阅读量337

点赞数

分类专栏： # 研一下文章标签：决策树 boosting 机器学习

本文链接：https://blog.csdn.net/weixin_43676735/article/details/130041393

版权

研一下专栏收录该内容

10 篇文章

订阅专栏

文章提出了eFL-Boost，一种针对GBDT的高效联邦学习方案，旨在降低通信成本和信息泄露，同时保持预测准确性。通过将树结构的确定过程本地化，而全局计算叶权重，eFL-Boost在每次更新时仅需三次通信，减少了对通信资源的需求。实验表明，eFL-Boost在通信效率和隐私保护方面优于现有方案，且精度接近非隐私保护设置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- 总结：

总结：

1. 每文三问

文章在解决什么问题?

对于 GBDT，如何在保持足够精度的同时平衡 communication efficiency and security，仍是一个未解决的问题。
用了什么方法 (创新方法) ?
- 提出 efficient FL for GBDT (eFL-Boost)，该方案 minimizes accuracy loss 、communication costs and information leakage。该方案专注于在 **更新模型时 **适当分配 本地计算（由 each organization 单独执行）和 全局计算（由 all organizations 合作执行），以降低通信成本并提高准确性。
- 树结构在全局计算中会产生很高的通信成本，而叶权重不需要这样的成本，并且叶权重对 accuracy 的贡献更大。因此，在 eFL-Boost 中，a tree structure 由单个 organization 来 determined locally（本地确定）， 全局叶权重 是通过聚合所有 organization 的本地梯度计算得到（全局计算）。eFL-Boost 每次更新只需要三次通信。
效果如何？
- 只有低隐私风险的统计信息会泄露给其他组织。
- 通过在公共数据集 (ROC AUC, Log loss, and F1-score are used as metrics) 上的评估，eFL-Boost 优于产生低通信成本的现有方案，并且与不提供隐私保护方案的 accuracy 相当。

2. Introduction

2.1 本文贡献

global computation（由 all organizations 合作训练）的 GBDT 具有较高的预测性能，但通信成本高、信息泄露严重。eFL-Boost 通过 partially introducing local computation 实现了通信成本和 accuracy 之间的权衡。但是，introduction of local computation 会造成精度损失（会降低每棵树的准确性），this loss is compensated补偿 by the property of GBDT（在一定程度上得到补偿）, because GBDT can construct a strong learner from multiple weak learners。
为了实现通信成本和 accuracy 之间的最佳平衡，在 GBDT 训练时的 in the local and global computations have a balanced resource allocation 。具体而言，
- 在 eFL-Boost 中， 树的结构是局部确定的，而不是全局确定的，以避免较高的通信成本和信息泄露。
- 全局叶权重是聚合所有本地梯度得到的 ，可避免精度下降。

3. EFFICIENT FL FOR GBDT（GBDT的高效FL）

A. OVERVIEW（概述）

当前问题：在确定决策树结构时，数据拥有者之间 通信成本较大 。

研究专注于：如何适当分配 本地计算（由 each organization 单独执行）和 全局计算（由 all organizations 合作执行），以在不影响安全性和准确性的前提下 降低通信成本。

决策树组成：

树结构 ${T}$ ：由多个具有阈值的节点组成的图
叶权重 ${w}$ ：模型的输出

在通信成本方面，树结构的通信成本与树的深度相关；计算全局叶权重只需要一轮通信。

在精度方面，叶权重对预测性能的贡献更大，因为他们与输出直接相关。

eFL-Boost 的核心思想：

树结构的确定，需要较大通信成本，对精度贡献相对较小。 —> computed locally
叶权重，需要较小的通信成本，对精度贡献相对较大。 —> computed globally

eFL-Boost 的三个组成部分：

数据拥有者 ${D}$ ：计算 ${G_d}$ 、 ${H_d}$ （每个 leaf 的梯度和 [ 基于 ${B}$ 共享的树结构 ]）
构建者 ${B}$ ：each update 需要重新从 ${D}$ 中选择。除了 ${D}$ 的角色外， ${B}$ 还负责构建树结构。（树结构 only computed locally）
聚集器 ${Agg}$ ：是一个没有数据集的第三方组织。
- 负责对 ${G_d}$ 、 ${H_d}$ 进行聚合，然后计算全局叶权重 ${w}$ ；
- 选择 ${B}$ （ ${B}$ 是按照预定的顺序选择的）。

在这里插入图片描述

讨论 分配给叶节点数据量下限问题：

从隐私保护的角度来看， ${B}$ 不应该采用 叶子只对应少数几个数据点 的树结构。这种树结构中包含的阈值和叶权值仅能满足少量数据，可能会增加个人信息泄露的风险。因此，分配给叶节点的数据量的下限应该预先确定，这样个人信息泄露的风险不会导致任何实际问题。

B. ALGORITHM（算法）

第 ${i}$ 次更新流程：

（1）Setup

${Agg}$ 从 ${D}$ 中选出 ${B}$
每个数据拥有者 $\in D }$ 基于 ${ T_{i-1} }$ 和 ${ (X_d, y_d) }$ 更新 each data 的梯度（ ${ g_d,h_d }$ ）

在 eFL-Boost 中， ${Agg}$ 为了抑制 bias in the global model 会在 each update 中选一个不同的 ${ }B$

（2）Local Tree Structure Determination

${B}$ 使用它自己的数据集 ${X_B}$ 和 ${ g_B, h_B }$ 确定树结构(only the tree structure) ${T_i}$
${B}$ 把树结构(only the tree structure) ${T_i}$ 分享给 ${D}$

${Note}$ ：

FederBoost 通过全局计算树结构 ${T_i}$ ，需要多次直方图通信；
eFL-Boost 中，应用本地计算来降低这些成本。

（3）Aggregating Gradients for Each Leaf

每个数据拥有者 $\in D }$ 根据 ${X_d}$ 和 ${ g_d, h_d }$ 计算 ${G_d}$ 、 ${H_d}$ （叶节点累积梯度和）
数据拥有者 $\in D }$ 发送 ${G_d}$ 、 ${H_d}$ 给 ${Agg}$

（4）Global Leaf Weight Calculation

${Agg}$ 计算 $\sum_{d \in D} G_d }$ 、 $\sum_{d \in D} H_d }$ 、 $w_i = -{G \over H+ \lambda} }$ （师姐的 $\sum_{d \in D}{n_d \over n} G_d }$ 、 $\sum_{d \in D}{n_d \over n} H_d }$ ）
${Agg}$ 发送 ${w_i}$ 给 ${D}$