百度强化学习课程总结

本文总结了百度的强化学习7日打卡课程,介绍了强化学习的基本概念和核心算法Sarsa与Q-learning,以及针对连续状态问题的DQN改进。通过实例解释了这些算法的工作原理,并对课程给予了高度评价。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、引言
百度强化学习7日打卡课程,是百度推出的针对初学者的一门以实践为主的线上课程。这门课程可以帮助那些对强化学习充满兴趣但是没有基础的同学,在7天里,了解强化学习的概念,以及一些基础算法,最重要的是,可以通过一些有趣的项目实践,在理论学习的同时,动手完成有趣的小游戏,从而提升趣味性。
二、强化学习是什么
首先我们明确一点,计算机的不断发展,其核心目标是希望可以利用计算机代替人类,完成一些工作,从最早的单纯计算,到人工智能初始阶段的逻辑推理,再到机器学习,通过已有的先验知识对模型进行训练,从而完成诸如图像识别等工作。但是上述的所有过程,都是需要一定程度的先验知识,于是我们就想,能不能让计算机可以像人一样自主学习,通过与环境的交互,学习到相关的经验知识,从而完成训练,这就是强化学习。强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。
强化学习框图
三、Sarsa&Q-learning
Sarsa ”SARSA“ 五个字母是当前 S (状态), A(行动), R(奖励) 与 下一步S’(状态) A’(行动) 的组合,即我们不仅需要知道当前的S, A, R 还需要知道下一步的 S’ 和 A‘。简单来说,Sarsa的实现过程是这样的,首先,我们根据所有的状态以及动作,构建一个Q表格,这个表格里标明了每一种状态下执行每一种动作的Q值,这个Q值可以理解为执行这种动作的收益,Q值越大,收益越高。有了Q表格以后,我们就可以进行训练了,训练的过程,实际上是优化Q表格的过程,根据公式进行Q表格的迭代更新,从而得到一个最优的Q表格。这个最终的Q表格,可以帮助计算机知道,在任意一个状态下,应该选择哪个动作。Q-LearningR-learning的实现过程和Sarsa大体上是一样的,不同的是Sarsa是on-policy,也就是基于策略,意思是,在训练过程中,根据现有的Q表格,选择最优的动作进行执行,然后再更新Q表格,也就是说在训练过程中,现有的Q表格是执行动作的一个现有策略。而Q-learning则是off-policy,也就是说它在训练的时候,很不听话,它根本不管现有的Q表格,当处在一个环境时,选择哪个动作都可以,而且它就认为选择的这个动作就是最优的,以此来更新Q表格。通过实际实践,我们可以发现,Sarsa就像一个乖宝宝,拿着现有的Q表格,循规蹈矩,按照规定办事,因此在迷宫游戏中,它最终选择的路线相对保守,尽可能远离危险区域;而Q-learning则像是一个混小子,训练过程中根本不看Q表格,大胆地探索各种动作,在迷宫游戏中,我们可以看到,在训练时Q-learning到处乱跑,哪怕前面就是危险区域,它也要头铁地去碰一碰,因此它最后得到的路线并不会妥善地绕开危险区域,而是游走在死亡的边缘。
四、DQN
为什么需要DQN呢?我们发现,这个Sarsa和Q-learning,都需要这个Q表格,状态可数的时候吧,他俩还可以,这要是状态连续,数不清楚了,他俩就拉闸了。那么对于连续状态,必然是没法构建Q表格的,于是我们就想,能不能想个办法直接获得Q值,反正选择动作就是根据Q值,只要有了Q值要不要Q表格无所谓,于是就有了DQN。DQN是在Q-learning的基础上进行了三个方面的优化,首先就是利用了深度学习网络,这个网络输入是状态,输出是Q值,这样就无需构建Q表格,根据所处状态直接获得Q值,从而进行动作选择。第二个优化是引入经验池,深度学习网络的输入需要是不相关的,但是相邻状态之间必然具有相关性,于是我们就构建一个经验池,在里面存放一定数量的状态数据,然后通过随机抽取的方法,从中抽选出状态数据送入深度学习网络,这样输入数据就不再具有相关性,同时也使得同一个数据可以进行多次重复利用。最后就是固定Q目标,这是为了解决算法不平稳的问题。
五、总结
通过本次课程的学习,我对强化学习有了基本的了解,在课程学习的过程中,首先要感谢科科老师的精彩讲解,科科老师把生涩难懂的算法原理通过生动的例子讲述的十分清楚,也容易理解。在完成课程作业的过程中,主要工作集中在参数优化上,而参数优化这个事情就很玄学,通过不断地尝试进行优化。整体上,感觉百度的这次课程十分适合我这样的小白,既有理论学习,又有实践操作,非常棒,希望百度以后可以继续推出这样的短期培训课程,让我这样的初学者也能快速上手学习人工智能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值