自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 强化学习——梯度策略求最佳policy

强化学习——policy-based approach 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录强化学习——policy-based approach前言1 Machine Learning2 Three Steps for Deep Learning3 Goodness of Actor:4 Gradient Ascent5 Add a Bas

2021-08-14 16:58:15 182

原创 强化学习与马尔科夫

序言 最近一直看论文,啃到了马尔科夫与强化学习这个硬骨头,痛甚者,因看书与博客,有了一点点解,今分给众,若能使汝亦损痛,是吾之幸。 一、强化学习的两个基本概念 首先在要了解在强化学习里有两个基本的概念,Environment和Agent。 Environment指的是外部环境,在游戏中就是游戏的环境。Agent指的是智能体,指的就是你写的算法,在游戏中就是玩家,智能体通过一套策略输出一个行为(Action)作用到环境,环境则反馈状态值,也就是Observation,和奖励值Reward到智能体,同时环境会转

2021-04-02 15:32:07 1556 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除