- 博客(2)
- 收藏
- 关注
原创 强化学习——梯度策略求最佳policy
强化学习——policy-based approach 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录强化学习——policy-based approach前言1 Machine Learning2 Three Steps for Deep Learning3 Goodness of Actor:4 Gradient Ascent5 Add a Bas
2021-08-14 16:58:15 182
原创 强化学习与马尔科夫
序言 最近一直看论文,啃到了马尔科夫与强化学习这个硬骨头,痛甚者,因看书与博客,有了一点点解,今分给众,若能使汝亦损痛,是吾之幸。 一、强化学习的两个基本概念 首先在要了解在强化学习里有两个基本的概念,Environment和Agent。 Environment指的是外部环境,在游戏中就是游戏的环境。Agent指的是智能体,指的就是你写的算法,在游戏中就是玩家,智能体通过一套策略输出一个行为(Action)作用到环境,环境则反馈状态值,也就是Observation,和奖励值Reward到智能体,同时环境会转
2021-04-02 15:32:07 1556 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人