种西红柿的人-CSDN博客

原创强化学习——梯度策略求最佳policy

强化学习——policy-based approach 提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录强化学习——policy-based approach前言1 Machine Learning2 Three Steps for Deep Learning3 Goodness of Actor:4 Gradient Ascent5 Add a Bas

2021-08-14 16:58:15 182

原创强化学习与马尔科夫

序言最近一直看论文，啃到了马尔科夫与强化学习这个硬骨头，痛甚者，因看书与博客，有了一点点解，今分给众，若能使汝亦损痛，是吾之幸。一、强化学习的两个基本概念首先在要了解在强化学习里有两个基本的概念，Environment和Agent。 Environment指的是外部环境，在游戏中就是游戏的环境。Agent指的是智能体，指的就是你写的算法，在游戏中就是玩家，智能体通过一套策略输出一个行为（Action）作用到环境，环境则反馈状态值，也就是Observation，和奖励值Reward到智能体，同时环境会转

2021-04-02 15:32:07 1556 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习——梯度策略求最佳policy

原创 强化学习与马尔科夫

空空如也

空空如也

原创强化学习——梯度策略求最佳policy

原创强化学习与马尔科夫