强化学习
王大银子
这个作者很懒,什么都没留下…
展开
-
PPO
PPO摘要:我们提出了一种新的强化学习策略梯度方法,它通过与环境的交互在采样数据之间交替,并使用随机梯度上升优化替代目标函数。虽然标准的策略梯度方法对每个数据样本执行一次梯度更新,但我们提出了一个新的目标函数,它可以实现多个时期的小批量更新。这些新方法被称为“最近策略优化”(proximal policy optimization, PPO),具有信任区域策略优化(TRPO)的一些优点,但它们实现起来更简单、更通用,并且(从经验上)具有更好的样本复杂度。我们的实验在一组基准任务上测试PPO,包括模拟原创 2020-10-16 09:22:29 · 1395 阅读 · 0 评论 -
Deep Reinforcement Learning : An Overview(Yuxi Li) 学习笔记
翻译的比较粗糙,仅供参考。2.2 Deep Learning深度学习与浅层学习形成对比。对于许多机器学习算法,如线性回归、逻辑回归、支持向量机(SVMs)、决策树和增强等,我们有输入层和输出层,在训练前可以用人工特征工程对输入进行转换。在深度学习中,在输入层和输出层之间有一个或多个隐藏层。在除输入层外的每一层,我们计算每个单元的输入,作为上一层单元的加权和;然后,我们通常使用非线性变换,或...原创 2020-03-14 10:03:43 · 3534 阅读 · 0 评论