强化学习
文章平均质量分 73
https://zhuanlan.zhihu.com/p/111869532 自用笔记
急急黄豆
这个作者很懒,什么都没留下…
展开
-
【自用笔记】Q—learning
也就是用下一步的V值更新这一步的V值(蒙特卡洛(所有Q取期望)的变体)(把下一步的V转化为Q=r+αV,再把Q平均到V中)- Qlearning 选择的是能够产生最大Q值的动作的Q值(最大Q值)。所以:由TD公式也就可以变形出SARSA公式,只不过是由V值更新V值变为了Q值更新Q值。所以虽然V不等于Q,但人们认为有个可能的动作产生的Q值能够一定程度代表V。S到A有多种选择,所以V值是Q值的期望(平均),Q值是。**注意:St选At的策略和St+1选At+1是。的动作At+1的Q值作为V(St+1)的替代。原创 2024-03-09 19:16:21 · 243 阅读 · 1 评论 -
【笔记】深度学习学习笔记(自用)
【世界冠军带你从零实践强化学习】 https://www.bilibili.com/video/BV1yv411i7xd/?原创 2024-02-17 11:16:10 · 201 阅读 · 1 评论 -
【自用笔记】3.1马尔科夫链
*s_dim状态空间:智能体能够观察到的特征数量。**a_dim动作空间:智能体能够做出的动作数量。eg 初始s——>a——>step()——>reset()——>s_1.1 是什么:智能体独立自主地完成某种任务。1.3 如何学:把问题抽象为模型。1.2 从哪里学:环境。转载 2024-03-01 15:17:10 · 121 阅读 · 1 评论 -
【自用笔记】如何理解强化学习中的Q值和V值
1.1 评估动作的价值(Q值):它代表了智能体选择这个动作后,一直到最终状态奖励总和的期望,eg 共40个时隙,该动作做出可能该时隙奖励较低,但直到最后一个时隙奖励总和的期望较高,选择该动作。1.2 评估状态的价值(V值):它代表了智能体在这个状态下,一直到最终状态的奖励总和的期望。转载 2024-03-01 19:37:05 · 431 阅读 · 1 评论 -
【自用笔记】动态规划+蒙地卡罗算法+时序拆分估算V值
侵权可删。原创 2024-03-06 13:17:31 · 836 阅读 · 1 评论