总结:(内容不多,收获较少)
1. 学习参考链接
2. 每文三问
-
文章在解决什么问题?
传统的联邦学习容易受到差分攻击,这种攻击可能来自联邦优化过程中的任何一方。在这种攻击中,通过分析分布式模型,客户端在训练期间的贡献以及本地数据集的信息可能被暴露。
-
用了什么方法?
提出 client-level DP 的一个算法 -
效果如何?
只要有足够多的参与者,仅以很小的模型代价即可实现 client-level 的差分隐私。
3. 知识点索引
章节1
- 介绍 机器学习+差分隐私 的目的
- 介绍 example-level privacy 和 user-level privacy 各自保护的对象
章节2.2
- 介绍高斯机制
- 讨论 δ (失败概率) 的阈值问题 == 讨论查询函数f 查询时 δ 的阈值问题
章节3
-
通过 scaled version 确定敏感度上界 S
-
moments accountant 的功能 - 评估 δ 、跟踪 privacy loss
-
讨论 模型训练时 δ 的阈值问题 == 模型训练的终止条件
-
选择 合适的 S (clipping bound) 裁剪边界
-
影响 σ选择 的两个因素 (失真率r 的上界、参与训练客户端数量的下界)
-
方差 $ V_c $ 的作用
章节5
-
选择一个模型的标准
-
“通信成本” 的定义
-
动态调整 dp-preserving 机制。( r = σ t 2 / m t r=\sigma_t^2/m_t r=σt2/mt, σ t \sigma_t σt 是方差, m t m_t mt 是随机抽样client子集中client的个数)
1. 早期通信阶段 r固定,σ 和 m 均减小时,模型精度几乎没有变化,模型损失减小。从而在隐私预算耗尽之前,可进行更多次的通信。 2. 后期通信阶段 较大的 m 才能获得准确性。
-
对比标签拟合阶段和数据拟合阶段中的 V c V_c Vc 与 U c U_c Uc 的变化含义。( V c V_c Vc :方差、 U c U_c Uc :更新规模)
标签拟合阶段:
客户端的更新是相似的,所以Vc较低;
对随机初始化的权重进行了大的更新,所以Uc很大。
数据拟合阶段:
每个客户端都在优化自己本地数据集,所以Vc上升;
本地的最优状态与全局模型很接近,所以Uc急剧缩小。