联邦强化学习

《联邦学习》(杨强等著)读书笔记

强化学习是机器学习的一个分支,主要研究序列决策问题。强化学习系统通常由一个动态环境和与环境进行交互的一个或多个智能体组成。智能体根据当前环境条件选择动作决策,环境在智能体决策的影响下发生相应改变,智能体可以根据自身的决策、环境的改变过程得出奖励。智能体必须处理顺序决策问题,从而获得最大化价值函数的结果(即期望的折扣奖励总和或期望奖励)。传统的强化学习过程可以表示为马尔可夫决策过程。

智能体首先将观察环境的状态,然后基于这个状态选择动作。智能体期望根据所选的动作,从环境中得到奖励。智能体的奖励与其上一步的状态、下一步状态和所做出的决策等因素有关。智能体在状态-动作-奖励-状态周期中循环移动。

除了智能体和环境,强化学习系统还包括四个关键子元素:策略、奖励信号、价值函数及可选的环境模型。

在强化学习的训练过程中,如果智能体需要探索一个巨大的状态-决策空间,那么这个过程可能会非常耗时或需要大量的算力。如果环境和智能体有多个副本,这个问题便可以通过分布式的方式来更有效地解决。分布式强化学习范式可以是同步的或异步的。

分布式强化学习在过去几十年得到了广泛地研究,这些研究大致可以分为多智能体强化学习和并行强化学习。分布式强化学习在实现过程中存在许多技术和非技术的问题,其中最关键的问题是如何防止信息泄露,并在分布式强化学习过程中保护智能体的隐私安全。这一关注导致了强化学习的隐私保护版本——联邦强化学习。

联邦学习是一种强大的框架,可以避免信息泄露和保护用户隐私。在这里,我们将联邦强化学习分为横向联邦强化学习和纵向联邦强化学习。

联邦学习作为一种能在训练和推理过程中保护各方隐私和防止信息泄露的新型框架,近年来受到了越来越多的研究和关注。以下是当前联邦强化学习面临的挑战和研究方向。

  1. 新的隐私保护方法

注意,上述引用的联邦强化学习框架使用了交换参数或引入高斯噪声的思想,当面临敌对的智能体或甚至攻击者时,这种方法将会变得十分脆弱。因此,需要将差分隐私、安全多方计算和同态加密等更多的可靠性方法融入联邦强化学习中。

  1. 迁移联邦强化学习

虽然我们并没有对迁移联邦强化学习进行单独的分类,但它的重要性仍然促使我们提出一个十分有意义的研究方向。在传统强化学习方法中,从已学习过的任务中,将经验、知识、参数或梯度迁移到新任务中是目前研究的前沿。在强化学习社区中,从已有知识中学习,是比仅仅从样本中学习更优挑战性的目标。

  1. 联邦强化学习新机制

从上文我们可以总结如下:当前联邦强化学习的方法都可以归类为深度强化学习方法。由于联邦学习在强化学习领域引入了新的约束,因此借用传统强化学习方法或深度学习方法,探索新的强化学习机制形成了一个有意义但极具挑战的研究方向。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值