强化学习基础概念

深度强化学习 Deep Reinforcement Learning基本概念

  • 视频课程出自王树森
    https://www.youtube.com/watch?v=vmkRMvhCW5c&list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU

1基本概念

  • Random Variable 随机变量

  • Probability Density Function 概率密度函数

  • Expection 数学期望

  • Random sampling 随机抽样

  • state 状态(当前的游戏状态)

  • action 行为

  • agent 智能体,操作主体

  • policy pi 策略函数(概率密度函数, )

简言之:超级玛丽游戏中,观察当前的场景(state),操作马里奥(agent)做出相应的动作(action),这一套可以理解为policy。

  • reward R 奖励
    强化学习的目标是获得的奖励尽可能多。
  • state transition状态转移


观察到当前的状态s以及动作a之后, 下一个状态p‘的概率

强化学习中随机性的来源

1 策略函数具有随机性,策略函数本身是一个概率密度函数
2 状态转移具有随机性

游戏中的轨迹:trajectory
s1,a1,r1,s2,a2,r2,s3,a3,r3,…
状态,动作,奖励。。。

  • Return 未来时刻的累积奖励(cu lulative future reward)

Rt与R(t+1)的重要性

理解(现在给你100,一年后给你100你选哪个?)
现在给你80,一年够给你160你选哪个?

综合,Rt应该是更重要一些
那么对将来预期的回报就会打一个折扣

  • Discounted return 折扣率,超参数,需要自己调

  • 总而言之,目标就是让Ut越大越好

  • Ut是个随机变量,取决于将来的环境与动作,t时刻并不知道Ut是什么,因此为了量化Ut,就对Ut求期望,将未知数用积分消除,得到的就是一个实数。

  • Qpi 动作价值函数

  • 请添加图片描述

动作价值函数Qpi的直观意义

在policy动作函数下,在St环境下做动作At是好还是坏
Qpi就是一个打分函数,不同的pi就有不同的Qpi
我们有无数种policy函数,但是我们应该选择一个最好的策略价值函数

  • 最优动作价值函数

  • Q*可以告诉当前动作的评价
    请添加图片描述

  • 状态价值函数 可以对当前的形势进行观察

  • 只与s与pi有关

请添加图片描述请添加图片描述

总结

Qpi给动作打分
Vpi给当前局势打分
请添加图片描述

请添加图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

kaggle竞赛指南

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值