联邦强化学习

最新推荐文章于 2024-04-13 17:50:52 发布

非文的NLP修炼笔记

最新推荐文章于 2024-04-13 17:50:52 发布

阅读量1k

点赞数 1

分类专栏： # Federated Learning 读书笔记文章标签：深度学习自然语言处理

本文链接：https://blog.csdn.net/weixin_44850744/article/details/128811926

版权

Federated Learning 读书笔记专栏收录该内容

9 篇文章

订阅专栏

《联邦学习》（杨强等著）读书笔记

强化学习是机器学习的一个分支，主要研究序列决策问题。强化学习系统通常由一个动态环境和与环境进行交互的一个或多个智能体组成。智能体根据当前环境条件选择动作决策，环境在智能体决策的影响下发生相应改变，智能体可以根据自身的决策、环境的改变过程得出奖励。智能体必须处理顺序决策问题，从而获得最大化价值函数的结果（即期望的折扣奖励总和或期望奖励）。传统的强化学习过程可以表示为马尔可夫决策过程。

智能体首先将观察环境的状态，然后基于这个状态选择动作。智能体期望根据所选的动作，从环境中得到奖励。智能体的奖励与其上一步的状态、下一步状态和所做出的决策等因素有关。智能体在状态-动作-奖励-状态周期中循环移动。

除了智能体和环境，强化学习系统还包括四个关键子元素：策略、奖励信号、价值函数及可选的环境模型。

在强化学习的训练过程中，如果智能体需要探索一个巨大的状态-决策空间，那么这个过程可能会非常耗时或需要大量的算力。如果环境和智能体有多个副本，这个问题便可以通过分布式的方式来更有效地解决。分布式强化学习范式可以是同步的或异步的。

分布式强化学习在过去几十年得到了广泛地研究，这些研究大致可以分为多智能体强化学习和并行强化学习。分布式强化学习在实现过程中存在许多技术和非技术的问题，其中最关键的问题是如何防止信息泄露，并在分布式强化学习过程中保护智能体的隐私安全。这一关注导致了强化学习的隐私保护版本——联邦强化学习。

联邦学习是一种强大的框架，可以避免信息泄露和保护用户隐私。在这里，我们将联邦强化学习分为横向联邦强化学习和纵向联邦强化学习。

联邦学习作为一种能在训练和推理过程中保护各方隐私和防止信息泄露的新型框架，近年来受到了越来越多的研究和关注。以下是当前联邦强化学习面临的挑战和研究方向。