局部强化优化算法(PRO)

Partial Reinforcement Optimizer (PRO)

一种名为Partial Reinforcement Optimizer(PRO)的新型进化优化算法。PRO背后的主要思想来自进化学习和训练中的心理学理论,称为部分强化效应(PRE)理论。根据 PRE 理论,学习者在学习和训练过程中间歇性地强化以学习或加强特定行为。强化模式显着影响学习者在强化计划中的反应率和力量,这是通过适当选择强化行为和应用强化过程的时间来实现的。

为了将部分强化效应(PRE理论的规则和概念映射到PRO算法的组件上,有必要将PRE理论建模为优化算法

计划:计划的概念是需要加强行为的方式和时间,在不同的时间间隔内为数据结构建模,每个学习者都有特定的时间表。由于每个缩放器都代表特定学习者行为的分数/优先级,因此分数/优先级越高,在下一次迭代中被选中的机会就越大。此外,可变区间调度方案被建模为使用方程进行随机分析的动态机制。 (1)(3)中。如何以及何时需要强化行为是一个变量,并在搜索过程中更新。因此,行为的子集,在每次迭代中为学习者选择附表 I 中优先级最高的这样,首先,按降序对计划中的优先级进行排序,然后按第一个顺序排序使用式(3)选择项目数作为候选行为。

刺激:任何刺激学习者行为以引起反应的尝试都是通过应用改变所提议解决方案的决策变量的操作来建模的。应该注意的是,任何操作都可以用于刺激(改变)学习者的行为(决策变量)。在PRO算法中,以下操作用于生成新的解决方案,如方程中所述。(4)(6)。


强化:为了概念化强化,我们使用以下机制来更新调度。然后应用正强化来增加特定行为的分数。学习者的目标函数,方程(7),被用作刺激阶段改善后的反应。


另一方面,当没有响应时,会应用负强化。在这种情况下,学习者的目标功能在刺激阶段后下降,导致特定行为的分数下降(方程(8))。在下一次迭代中,将选择得分较高的决策变量(行为)进行激励和强化。

重新安排:这个概念是指在训练期间为学习者应用新计划的过程,当学习者持续接受所有行为的负强化时。在这种情况下,PRO 使用时间表的标准差 (Std) 作为指标来确定何时需要重新安排学习者。此机制通过使用方程来应用。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值