Proximal Algorithms--Moreau-Yosida regularization

3.1 Moreau-Yosia regulariztion

莫罗-吉田正则化。

共轭函数 f :
若函数 f:RnR 是定义在 Rn 上的凸函数,则函数 f(x) 的共轭函数 f:RnR 定义为:

f(x)=supx(<x,x>f(x))

适当闭凸函数(proper closed convex function) f g Rn 上的下确卷积(infimal convolution),表示为 fg ,定义为:

(fg)(v)=infx(f(x)+g(vx),

并且 dom(fg)=domf+domg

给定 λ>0 ,函数 λf Moreau envelope (莫罗包络)or Moreau-Yosida regularization (莫罗-吉田正则化) Mλf 定义为 Mλf=λf(1/2)||||22 ,即:

Mλf(v)=infx(f(x)+(1/2λ)||xv||22). qquad(3.1)

也称为带有参数 λ 的函数 f 莫罗包络

莫罗包络Mf本质上是函数 f 的一个平滑或者正则化的形式:
1、其定义域为Rn(即使函数 f 的定义域不是Rn
2、连续可微。(即使当函数 f 不连续可微时)
3、函数f Mf 最小值集合是相同的。
因此,最小化函数 f 的问题,等价于最小化Mf的问题。

近端操作和莫罗包络的关系为:

proxλf(x)=xλMλf(x)(3.3)

近端操作可以看做是最小化函数 Mλf 的一个梯度步骤,步长为 λ
组合莫罗分解,我们给出近端操作,莫罗包络,和共轭的关系:
proxλf(x)=Mf(x)

3.2 次微分操作的分解

Resolvent of subdiffereential operator

我们将一个适当的闭凸函数次微分 f 看作是点到集合的映射(point-to-set mapping)或者一个关系(relation)。
任何点 yf(x) 称为函数 f x处的一个次微分。
近端操作 proxλf 和次微分操作 f 之间的关系:

proxλf=(I+λf)1(3.4)

点到点的映射: (I+λf)1 称为参数为 λ>0 的操作的分解(resolvent).

3.3 修改的梯度步骤

近端操作和函数 f 莫罗包络的关系:

proxλf(x)=xλMλf(x)

也就是说,近端操作是是一个梯度步骤,其最小化函数 f 的莫罗包络,步长为λ

近端操作和函数的关系:

proxλf(x)=(I+λf)1(x)=xλf(x)+o(λ)

也就是说,对于小的 λ proxλf(x) 收敛到一个梯度步骤,步长为 λ ,可以解释为最小化函数 f 的一个梯度步骤的近似.

上式公式的证明:
两个操作和的逆(inverse of sum of two operators):

(S+P)1=S1S1P(S+P)1

只需要证明 (S+P)(S+P)1=I
(S1S1P(S+P)1)(S+P)=S1(S+P)S1P(S+P)1(S+P)
=S1(S+P)S1P=SS1=I

则: (I+λf)1=I1I1(λf)(I+λf)1
再次带入:
(I+λf)1=I1I1(λf)(I1I1(λf)(I+λf)1)
(I+λf)1=Iλf+λ22f(I+λf)1
λ 很小时,上式变为:
(I+λf)1=Iλf+o(λ)

函数 f 一阶近似的近端操作:
如何函数可微,函数f在点 v 处的一阶近似表示为:

f^(1)v(x)=f(v)+f(v)T(xv)

则函数一阶近似的近端操作为:

proxf^(1)v(v)=vλf(v)

其实标准的梯度步骤(步长为 λ
函数 f 二阶近似的近端操作:
如何函数二阶可微,函数f在点 v 处的二阶近似表示为:
f^(2)v(x)=f(v)+f(v)T(xv)+(1/2)(xv)T2f(v)(xv)

则二阶近似的近端操作为:
proxf^(2)v(v)=v(2f(v)+(1/λ)I)1f(v)

上式的右手边是Tikhonov-regularized Newton update,或者Levenberg-Marquardt update 或者modified Hession Newton update.

总的来说,梯度步骤和Levenberg-Marquardt 步骤可以操作是函数 f <script type="math/tex" id="MathJax-Element-222">f</script>的一阶和二阶近似的近端操作。

参考文献:
1、https://www.physicsforums.com/threads/inverse-of-sum-of-two-operators.447467/

  • 0
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 近端策略优化算法(proximal policy optimization algorithms)是一种用于强化学习的算法,它通过优化策略来最大化累积奖励。该算法的特点是使用了一个近端约束,使得每次更新策略时只会对其进行微调,从而保证了算法的稳定性和收敛性。近端策略优化算法在许多强化学习任务中都表现出了很好的效果,成为了当前最流行的强化学习算法之一。 ### 回答2: 近端策略优化算法是一种新兴的强化学习算法。它具有高效的策略优化和稳定的收敛性。近端策略优化算法在深度学习、自然语言处理、机器视觉、机器人学和其他应用领域都得到了广泛的应用。 近端策略优化算法的核心思想是对策略函数进行优化,以便最大化预期奖励。该算法使用指数加权平均方法来维护与策略函数相关的价值函数和状态值函数。在每个时间步中,它会使用当前策略函数执行一个或多个轨迹,然后使用这些轨迹更新策略函数的参数。 相比于其他优化策略的强化学习算法,近端策略优化算法有以下几个优点: 1. 收敛速度快&mdash;&mdash;该算法具有高效的优化算法和稳定的训练过程,可以在较短的时间内收敛到最优解。 2. 收敛性强&mdash;&mdash;该算法能够在训练过程中处理大的批量数据,并且可以快速地找到全局最优解。 3. 易于实现和调整&mdash;&mdash;该算法的实现过程需要较少的超参数,使其易于实现和调整。 4. 可扩展性强&mdash;&mdash;该算法可以扩展到复杂的问题和大规模数据集合。 总结: 近端策略优化算法是一种高效、稳定、易于实现的强化学习算法。它能够快速地处理大规模数据集合,并找到全局最优解。该算法在深度学习、自然语言处理、机器视觉、机器人学等领域中得到了广泛的应用。 ### 回答3: Proximal Policy Optimization (PPO)算法是一种强化学习中的模型优化算法。它的主要目标是发现学习最优策略的方法,并将其应用到机器人控制、游戏玩法、交通规划和服务机器人等任务中。 PPO算法的核心思想是使用一个剪切函数来限制策略更新的幅度,以确保算法的收敛性和稳定性。与传统的Policy Gradient算法不同,PPO算法对不同样本的更新幅度进行了限制,避免了策略更新过于激进或保守的情况,从而使算法更加可靠。 PPO算法的目标函数由两部分组成:第一部分是优化目标,即最大化期望奖励,第二部分是剪切函数。在PPO算法中,剪切函数被定义为两个策略之间的距离,它用于限制策略更新的幅度,以确保策略优化的稳定性。该函数使用了一个参数 $\epsilon$ 来控制策略更新的幅度,当距离超过阈值时,算法就会停止更新策略。 PPO算法的主要优点在于它的稳定性和可靠性。与其他优化算法相比,PPO算法采用了一种有限的剪切函数,从而避免了策略更新过于激进或保守的情况,而这种情况往往会导致算法崩溃或无法收敛。此外,PPO算法还具有高效性和可扩展性,可以应用于大规模深度学习中。 总之,PPO算法是一种强化学习中比较先进的算法,应用范围广泛,而且具有稳定性和可靠性,是未来智能机器人、自动驾驶等领域的重要研究方向。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值