THE DIFFERENTIABLE CROSS-ENTROPY METHOD

最新推荐文章于 2022-04-16 00:37:47 发布

lls233

最新推荐文章于 2022-04-16 00:37:47 发布

阅读量231

点赞数

分类专栏：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44125720/article/details/102948000

版权

学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

这篇文章主要是对CEM（Cross-Entropy Method）做了改进，用目标函数的参数使cem的结果可微。应用于非凸连续控制问题。

简介

DCEM通过把动作序列embed成低维空间从而减少计算量和memory。主要是通过模型部分将可微策略参数化。使用PPO对基于模型的项目组件进行微调，证明在基于模型的强化学习上，除了用最大似然来拟合observation，用标准策略学习也是可行的。

优势

1）在高维和非凸优化问题上，以往的算法是将动作序列进行自编码，这个是用DCEM直接编码动作序列，这样做的优点是：不需要专家解法、有可能在动作空间上超越专家控制器、可以发掘搜索潜能。
2）在结合model-based和model-free方面，基本用的是可微MPC并且只在cartpole和pendulm上做实验，而这个可以在cheetah和walker这样更难的问题，在控制器里用了神经网络，将策略损失通过控制组件反向传播到内部组件里。

详细介绍

目标函数为 $\hat{x} = \underset{x}{argmin} f_{\theta }\left ( x \right )$

这里先简单介绍一下CEM：首先需要有一个分布 $g_{\phi }$ ，在次的迭代时，从 $g_{\phi }$ 中采样得到个样本 $[X_{t,i}]_{i=1}^{N} \sim g_{\phi _{t}}\left ( \cdot \right )$ ，然后用评价函数得到每个样本的值 $v_{t,i} =f_{\theta }\left (X_{t,i}\right )$ ，然后根据价值最高的个样本拟合新的分布 $g_{\phi }$ ，就这样迭代次。

DCEM伪代码：

和CEM的区别在于topk个值的选取

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
THE DIFFERENTIABLE CROSS-ENTROPY METHOD

这篇文章主要是对CEM（Cross-Entropy Method）做了改进，用目标函数的参数使cem的结果可微。应用于非凸连续控制问题。简介DCEM通过把动作序列embed成低维空间从而减少计算量和memory。主要是通过模型部分将可微策略参数化。使用PPO对基于模型的项目组件进行微调，证明在基于模型的强化学习上，除了用最大似然来拟合observation，用标准策略学习也是可行的。...
复制链接

扫一扫

专栏目录

lls233 CSDN认证博客专家 CSDN认证企业博客

码龄6年

19: 原创

55万+: 周排名

157万+: 总排名

5万+: 访问

: 等级

547: 积分

7: 粉丝

60: 获赞

11: 评论

113: 收藏

私信

关注

热门文章

分类专栏

最新评论

pip到指定虚拟环境中
jyh_main: C:\Users\123>conda activate tensorflow1.14 (tensorflow1.14) C:\Users\123>pip --version pip 23.1.2 from D:\PY\Lib\site-packages\pip (python 3.11)
vue 子组件给父组件传值
天山&云海: 逻辑和流程非常清晰，很有帮助！
saver = tf.train.Saver(max_to_keep=None) 保存全部已训练模型
明人说暗话: 请问一下，（self.saver=tf.train.Saver(tf.global_variables(),max_to_keep=5)）这样没有写保存路径，模型保存到哪里了？
mujoco131对应python和mujoco-py版本
wavehaha: 博主，你好我想问一下，你有没有出现[[V: Permission denied sh: 2: [ : Permission denied [[V: Permission denied sh: 2: [ : Permission denied [[V: Permission denied sh: 2: Syntax error: "(" unexpected [[V: Permission denied sh: 2: Syntax error: "(" unexpected ERROR: Invalid activation key这个问题
pip到指定虚拟环境中
夹着巧克力吃: 谢谢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。