百度七日强化学习笔记与心得体会

最新推荐文章于 2024-01-21 02:01:56 发布

Zhmiyo

最新推荐文章于 2024-01-21 02:01:56 发布

阅读量360

点赞数

本文链接：https://blog.csdn.net/zmy328/article/details/106955198

版权

基本概念：

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。
核心思想：智能体agent在环境environment中学习，根据环境的状态state（或观测到的observation），执行动作action，并根据环境的反馈 reward（奖励）来指导更好的动作。

注意：从环境中获取的状态，有时候叫state，有时候叫observation，这两个其实一个代表全局状态，一个代表局部观测值，在多智能体环境里会有差别，但我们刚开始学习遇到的环境还没有那么复杂，可以先把这两个概念划上等号。

强化学习模型

2.强化学习能做什么

4.强化学习的如何解决问题

5.强化学习的算法和环境

6.Sarsa 简介

Sarsa全称是state-action-reward-state'-action'，目的是学习特定的state下，特定action的价值Q，最终建立和优化一个Q表格，以state为行，action为列，根据与环境交互得到的reward来更新Q表格，更新公式为：

7**. Q-learning简介**

Q-learning也是采用Q表格的方式存储Q值（状态动作价值），决策部分与Sarsa是一样的，采用ε-greedy方式增加探索。
Q-learning跟Sarsa不一样的地方是更新Q表格的方式。
- Sarsa是on-policy的更新方式，先做出动作再更新。
- Q-learning是off-policy的更新方式，更新learn()时无需获取下一步实际做出的动作next_action，并假设下一步动作是取最大Q值的动作。
Q-learning的更新公式为：

8.policy Gradient简介

在强化学习中，有两大类方法，一种基于值（Value-based），一种基于策略（Policy-based）
- Value-based的算法的典型代表为Q-learning和SARSA，将Q函数优化到最优，再根据Q函数取最优策略。
- Policy-based的算法的典型代表为Policy Gradient，直接优化策略函数。
采用神经网络拟合策略函数，需计算策略梯度用于优化策略网络。
- 优化的目标是在策略π(s,a)的期望回报：所有的轨迹获得的回报R与对应的轨迹发生概率p的加权和，当N足够大时，可通过采样N个Episode求平均的方式近似表达。
- 优化目标对参数θ求导后得到策略梯度：

9 . DDPG简介

课程中作业问题及遇到的共性问题和解答都可以去讨论区学习：

https://aistudio.baidu.com/aistudio/education/group/info/1335

【参考资料】PARL的Github: https://github.com/PaddlePaddle/PARL，欢迎大家点Star~

关注