强化学习
文章平均质量分 93
海里的果
这个作者很懒,什么都没留下…
展开
-
《动手学强化学习》- 学习笔记一
机器学习分预测型和决策型。决策型就是强化学习。特点是,决策能影响环境,引起环境的改变。特点:转变到新的状态,获得即时奖励,随着时间的推移最大化积累奖励。原创 2023-06-18 21:33:14 · 280 阅读 · 0 评论 -
强化学习实操笔记(二)
DQN系列 。对有一些游戏来说,它的state 和 action 很多,这个Q矩阵就会很膨胀,甚至有时action不是离散的,是不可数的。所以用一个Q矩阵来做评估就有点捉襟见肘了,D**QN的思想就很简单,提出了可以利用神经网络来计算Q矩阵**,因为Q矩阵的作用,无非就是输入一个 tate 和 action 输出一个 分数q。**而且DQN还利用了离线学习的思路,对数据的利用率高**原创 2023-06-11 18:41:47 · 172 阅读 · 0 评论 -
强化学习实操笔记(一)
代码地址:下午无事,找个强化学习的教程回顾。这里是简要的一些笔记。假设你进入一个赌场,面对一排老虎机(所以有多个臂),每个老虎机都有一定的概率获取奖励,你试验的总次数是一定的,这就是从经典的多臂老虎机问题。这里就有在线学习及更宽泛的强化学习中一个核心的权衡问题:Conlict between exploitation and exploring。即我们是应该探索(exploration)去尝试新的可能性,还是应该守成(exploitation)原创 2023-06-10 22:21:56 · 413 阅读 · 0 评论