百度强化学习课程总结

最新推荐文章于 2024-04-25 15:47:38 发布

HIT_Demon

最新推荐文章于 2024-04-25 15:47:38 发布

阅读量505

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_44355642/article/details/106897068

版权

本文总结了百度的强化学习7日打卡课程，介绍了强化学习的基本概念和核心算法Sarsa与Q-learning，以及针对连续状态问题的DQN改进。通过实例解释了这些算法的工作原理，并对课程给予了高度评价。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、引言
百度强化学习7日打卡课程，是百度推出的针对初学者的一门以实践为主的线上课程。这门课程可以帮助那些对强化学习充满兴趣但是没有基础的同学，在7天里，了解强化学习的概念，以及一些基础算法，最重要的是，可以通过一些有趣的项目实践，在理论学习的同时，动手完成有趣的小游戏，从而提升趣味性。
二、强化学习是什么
首先我们明确一点，计算机的不断发展，其核心目标是希望可以利用计算机代替人类，完成一些工作，从最早的单纯计算，到人工智能初始阶段的逻辑推理，再到机器学习，通过已有的先验知识对模型进行训练，从而完成诸如图像识别等工作。但是上述的所有过程，都是需要一定程度的先验知识，于是我们就想，能不能让计算机可以像人一样自主学习，通过与环境的交互，学习到相关的经验知识，从而完成训练，这就是强化学习。强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习。通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。
强化学习框图
三、Sarsa&Q-learning
Sarsa ”SARSA“ 五个字母是当前 S (状态), A(行动), R(奖励) 与下一步S’(状态) A’(行动) 的组合，即我们不仅需要知道当前的S, A, R 还需要知道下一步的 S’ 和 A‘。简单来说，Sarsa的实现过程是这样的，首先，我们根据所有的状态以及动作，构建一个Q表格，这个表格里标明了每一种状态下执行每一种动作的Q值，这个Q值可以理解为执行这种动作的收益，Q值越大，收益越高。有了Q表格以后，我们就可以进行训练了，训练的过程，实际上是优化Q表格的过程，根据公式进行Q表格的迭代更新，从而得到一个最优的Q表格。这个最终的Q表格，可以帮助计算机知道，在任意一个状态下，应该选择哪个动作。Q-LearningR-learning的实现过程和Sarsa大体上是一样的，不同的是Sarsa是on-policy，也就是基于策略，意思是，在训练过程中，根据现有的Q表格，选择最优的动作进行执行，然后再更新Q表格，也就是说在训练过程中，现有的Q表格是执行动作的一个现有策略。而Q-learning则是off-policy，也就是说它在训练的时候，很不听话，它根本不管现有的Q表格，当处在一个环境时，选择哪个动作都可以，而且它就认为选择的这个动作就是最优的，以此来更新Q表格。通过实际实践，我们可以发现，Sarsa就像一个乖宝宝，拿着现有的Q表格，循规蹈矩，按照规定办事，因此在迷宫游戏中，它最终选择的路线相对保守，尽可能远离危险区域；而Q-learning则像是一个混小子，训练过程中根本不看Q表格，大胆地探索各种动作，在迷宫游戏中，我们可以看到，在训练时Q-learning到处乱跑，哪怕前面就是危险区域，它也要头铁地去碰一碰，因此它最后得到的路线并不会妥善地绕开危险区域，而是游走在死亡的边缘。
四、DQN
为什么需要DQN呢？我们发现，这个Sarsa和Q-learning，都需要这个Q表格，状态可数的时候吧，他俩还可以，这要是状态连续，数不清楚了，他俩就拉闸了。那么对于连续状态，必然是没法构建Q表格的，于是我们就想，能不能想个办法直接获得Q值，反正选择动作就是根据Q值，只要有了Q值要不要Q表格无所谓，于是就有了DQN。DQN是在Q-learning的基础上进行了三个方面的优化，首先就是利用了深度学习网络，这个网络输入是状态，输出是Q值，这样就无需构建Q表格，根据所处状态直接获得Q值，从而进行动作选择。第二个优化是引入经验池，深度学习网络的输入需要是不相关的，但是相邻状态之间必然具有相关性，于是我们就构建一个经验池，在里面存放一定数量的状态数据，然后通过随机抽取的方法，从中抽选出状态数据送入深度学习网络，这样输入数据就不再具有相关性，同时也使得同一个数据可以进行多次重复利用。最后就是固定Q目标，这是为了解决算法不平稳的问题。
五、总结
通过本次课程的学习，我对强化学习有了基本的了解，在课程学习的过程中，首先要感谢科科老师的精彩讲解，科科老师把生涩难懂的算法原理通过生动的例子讲述的十分清楚，也容易理解。在完成课程作业的过程中，主要工作集中在参数优化上，而参数优化这个事情就很玄学，通过不断地尝试进行优化。整体上，感觉百度的这次课程十分适合我这样的小白，既有理论学习，又有实践操作，非常棒，希望百度以后可以继续推出这样的短期培训课程，让我这样的初学者也能快速上手学习人工智能。