![](https://img-blog.csdnimg.cn/ba3b4c2345d44245bfc24b3ac657352e.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
深度强化学习
文章平均质量分 89
B站王树森up主课程笔记
Cary.
这个作者很懒,什么都没留下…
展开
-
A2C算法原理及代码实现
A2C算法原理及代码实现原创 2022-10-02 15:57:11 · 11992 阅读 · 4 评论 -
3 策略学习
本章我们将用一个神经网络来近似策略函数,这个神经网络叫做policy network,用于控制agent的运动,我们将使用policy gradient算法来训练这个网络。用神经网络近似策略函数π(a|s)考虑离散动作空间,比如A = {左, 右, 上}。策略函数π定义为:策略函数π 的输入是状态s 和动作a,输出是一个0 到1 之间的概率值。举个例子,把马里奥游戏当前屏幕上的画面作为s,策略函数会输出每个动作的概率值:有了三个概率值,agent会进行一次随机抽样,得到动作a,但是动作“左”被抽到概率最大。原创 2022-06-15 21:18:10 · 1045 阅读 · 1 评论 -
2 value-based 价值学习+DQN
value-based learning DQN原创 2022-05-27 20:13:32 · 511 阅读 · 0 评论 -
1 基础知识
1 概率论基础1.1 随机变量随机变量是一个不确定量,它的值取决于一个随机事件的结果。比如抛一枚硬币,正面朝上记为0,反面朝上记为1.抛硬币是个随机事件,其结果记为随机变量X。X有两种取值结果:0/1.抛硬币之前X是未知的且带有随机性。抛硬币之后,X便有了观测值,记作x(小写)。1.2 概率密度函数概率密度函数(PDF)描述一个连续概率分布——即变量的取值范围X 是个连续集合。正态分布是最常见的一种连续概率分布,随机变量X 的取值范围是所有实数R。正态分布的概率密度函数是:原创 2022-05-26 16:54:32 · 1994 阅读 · 0 评论 -
从强化学习的角度看alphago与MCTS
AlphaGo简单原理原创 2022-05-26 09:49:49 · 927 阅读 · 0 评论