深度强化学习 Deep Reinforcement Learning基本概念
- 视频课程出自王树森
https://www.youtube.com/watch?v=vmkRMvhCW5c&list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU
1基本概念
-
Random Variable 随机变量
-
Probability Density Function 概率密度函数
-
Expection 数学期望
-
Random sampling 随机抽样
-
state 状态(当前的游戏状态)
-
action 行为
-
agent 智能体,操作主体
-
policy pi 策略函数(概率密度函数, )
简言之:超级玛丽游戏中,观察当前的场景(state),操作马里奥(agent)做出相应的动作(action),这一套可以理解为policy。
- reward R 奖励
强化学习的目标是获得的奖励尽可能多。 - state transition状态转移
观察到当前的状态s以及动作a之后, 下一个状态p‘的概率
强化学习中随机性的来源
1 策略函数具有随机性,策略函数本身是一个概率密度函数
2 状态转移具有随机性
游戏中的轨迹:trajectory
s1,a1,r1,s2,a2,r2,s3,a3,r3,…
状态,动作,奖励。。。
- Return 未来时刻的累积奖励(cu lulative future reward)
Rt与R(t+1)的重要性
理解(现在给你100,一年后给你100你选哪个?)
现在给你80,一年够给你160你选哪个?
综合,Rt应该是更重要一些
那么对将来预期的回报就会打一个折扣
- Discounted return 折扣率,超参数,需要自己调
-
总而言之,目标就是让Ut越大越好
-
Ut是个随机变量,取决于将来的环境与动作,t时刻并不知道Ut是什么,因此为了量化Ut,就对Ut求期望,将未知数用积分消除,得到的就是一个实数。
-
Qpi 动作价值函数
动作价值函数Qpi的直观意义
在policy动作函数下,在St环境下做动作At是好还是坏
Qpi就是一个打分函数,不同的pi就有不同的Qpi
我们有无数种policy函数,但是我们应该选择一个最好的策略价值函数
-
最优动作价值函数
-
Q*可以告诉当前动作的评价
-
状态价值函数 可以对当前的形势进行观察
-
只与s与pi有关
总结
Qpi给动作打分
Vpi给当前局势打分