Sequential Classification-Based Optimization for Direct Policy Search

最新推荐文章于 2022-04-07 23:56:57 发布

pinn山里娃

最新推荐文章于 2022-04-07 23:56:57 发布

阅读量586

点赞数 8

分类专栏：物理驱动深度学习论文分享文章标签：算法

本文链接：https://blog.csdn.net/weixin_45521594/article/details/105936506

版权

物理驱动深度学习论文分享专栏收录该内容

40 篇文章 35 订阅

订阅专栏

论文信息

题目:Sequential Classification-Based Optimization for Direct Policy Search
期刊会议：the Thirty-First AAAI Conference on Artificial Intelligence
年份:17
论文地址:论文链接
代码：

内容

动机

策略优化任务通常非常复杂，涉及许多局部优化，在这种情况下，无导数优化可能很有用。许多无导数优化方法都是基于模型的，主要包括两个步骤：

从当前模型中采样解决方案，
从采样解决方案及其评估值中更新模型。

典型的无梯度方法：EA以及相似的方法交叉熵方法，但是这些方法较少的理论支持。除此之外， optimistic optimization methods以及贝叶斯优化有很好的理论支持但是可拓展性不强(应用于不同目标函数)

动机：Classification-based optimization是最近研究的基于模型的无导数优化方法的理论框架，Racos算法在各种应用中表现出出色的性能，为直接策略搜索提供了非常好的优化工具

但是与其他批处理的算法一样存在低效率步骤，它仅在对一批solution进行采样和评估之后才更新其模型，即使该模型没有必要对不好的solution进行采样。同时，在直接策略搜索中，通常必须对策略进行顺序评估，而不是同时进行评估
因此，原始批处理方式的Racos对于直接策略搜索可能无效，所以该论文提出了SRacos，在通过利用历史样本对每个solution进行抽样之后，更新模型。（提出了三种利用历史样本的替换策略）

核心算法

RACOS

该算法不同于其他无梯度优化算法，RACOS的采样区域通过简单的分类器学习。算法步骤大致分为：从解空间中均匀采样得到 $S_{0}$ ，然后得到solution-value元组集合 $B_{0}$ ，从行3到行11寻找记录best-so-far solution，具体为
- 将旧的元组集 $B _{t-1}$ 拆分为由最佳k个解决方案的元组组成的正集 $B ^{+ }_{t}$ ，剩下的为 $B ^{- }_{t}$
- 通过一个循环采样m个解，通过学习算法C得到假设 $h_{i}$ ，用于从所有负解中随机选择正解，然后再从 $D_{h_{i}}$ 和 $U_{X}$ 中均匀采样分别乘以权重系数 $\lambda$ , $(1-\lambda)$ ，得到新的采样点加到集合中
RACOS是一种批处理的算法：该模型依赖于算法的 $B ^{+ }_{t}$ 和 $B ^{- }_{t}$ 在行7，并且在迭代循环（行6至10）中，这两个集合不变。也就是说，即使该分布不够好，也从相同的分布生成采样区域。批处理方式采样可能会产生冗余，并且不适合用于直接策略搜索之类的顺序评估问题。因此，我们提出了SRacos。

SRacos:算法中重复部分在下图中未展示。
行7到行8与Racos一样，

核心图

在这里插入图片描述

创新

在Racos基础上进行改良，该算法显示出更好的收敛速度和更强的可扩展性

pinn山里娃

关注

8
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
Sequential Classification-Based Optimization for Direct Policy Search

论文信息题目：Sequential Classification-BasedOptimization for Direct Policy Search期刊会议：the Thirty-First AAAI Conference on Artificial Intelligence年份：17论文地址:论文链接代码：内容动机策略优化任务通常非常复杂，涉及许多局部优化，在这种情况下，无导...
复制链接

扫一扫