![](https://img-blog.csdnimg.cn/4d470f6788aa4404afa54ba558e9c323.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
强化学习
文章平均质量分 65
show you respect
Dxton
这个作者很懒,什么都没留下…
展开
-
【shusen wang】【笔记】深度强化学习(2/5):价值学习
1,价值函数一张图回忆一下动作价值函数公式。2,DQN(Deep Q-Network)输入状态利用Q*来输出最佳动作。Q*从何而来?这里用神经网络学习近似得到一个Q*。(感性认识:Q*如果看作给所有动作打分的话,神经网络就要学习打分如何打的越来越准)3,TD learning(Tempor Difference)-1,正常情况下如何训练一个神经网络:例1: 导航模型预测NYC到atlanta需要1000分钟,实际测试是860分钟。预测值...原创 2021-03-29 20:04:04 · 198 阅读 · 0 评论 -
【shusen wang】【课后笔记】深度强化学习(1/5):基本概念
1、state and action-当前游戏画面 看作状态。输入当前画面得出动作,环境更新状态,并返回智能体奖励值,如此往复。-发出动作的主体即为智能体(agent)2、policy π-用处?观察当前状态,决定agent动作a。-图片中1:动作A若不确定,π就是概率密度函数。-图片中2:A确定后,π有固定值,表示为该状态s下选取动作a的概率值。-图片中3:状态s下,有多种动作a可供选择,例如2中有向左、向右、向上。依据他们的概率进行随机抽样。(并不是选择概率最高的动作,随机抽原创 2021-03-29 16:37:20 · 406 阅读 · 0 评论