Q learning参数的理解与选取

最新推荐文章于 2024-04-11 14:25:21 发布

weixin_44196792

最新推荐文章于 2024-04-11 14:25:21 发布

阅读量5.1k

点赞数 7

分类专栏：强化学习

强化学习专栏收录该内容

2 篇文章

订阅专栏

本文详细解析了强化学习中epsilongreedy算法的工作原理及其参数设置，包括如何理解exploration与exploitation之间的权衡，以及alpha和gamma这两个关键参数的作用与设定建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、epsilon greedy 算法

Q: 如何理解 greed-epsilon 方法／如何设置 epsilon／如何理解 exploration & exploitation 权衡？
A: (1) 我们的小车一开始接触到的 state 很少，并且如果小车按照已经学到的 qtable 执行，那么小车很有可能出错或者绕圈圈。同时我们希望小车一开始能随机的走一走，接触到更多的 state。(2) 基于上述原因，我们希望小车在一开始的时候不完全按照 Q learning 的结果运行，即以一定的概率 epsilon，随机选择 action，而不是根据 maxQ 来选择 action。然后随着不断的学习，那么我会降低这个随机的概率，使用一个衰减函数来降低 epsilon。(3) 这个就解决了所谓的 exploration and exploitation 的问题，在“探索”和“执行”之间寻找一个权衡。

2、alpha 的解释

alpha 是一个权衡上一次学到结果和这一次学习结果的量，如：Q_new = (1-alpha)*Q_old + alpha*（instant reward+gamma*Q_current。
alpha 设置过低会导致机器人只在乎之前的知识，而不能积累新的 reward。一般取 0.5 来均衡以前知识及新的 reward。
3、gamma

gamma 是考虑未来奖励对于现在影响的因子，是一个(0,1)之间的值。一般我们取0.9，能够充分地对外来奖励进行考虑。
实际上如果你将它调小了，你会发现终点处的正奖励不能够“扩散”到周围，也就是说，机器人很有可能无法学习到一个到达终点的策略。
---------------------
作者：Walter_Silva
来源：CSDN
原文：https://blog.csdn.net/Gin077/article/details/82987599
版权声明：本文为博主原创文章，转载请附上博文链接！