强化学习基础概念

kaggle竞赛指南

于 2023-03-30 16:30:29 发布

阅读量506

点赞数 1

文章标签：人工智能强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45794268/article/details/129859956

版权

深度强化学习 Deep Reinforcement Learning基本概念

视频课程出自王树森
https://www.youtube.com/watch?v=vmkRMvhCW5c&list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU

1基本概念

Random Variable 随机变量
Probability Density Function 概率密度函数
Expection 数学期望
Random sampling 随机抽样
state 状态（当前的游戏状态）
action 行为
agent 智能体，操作主体
policy pi 策略函数（概率密度函数，）

简言之：超级玛丽游戏中，观察当前的场景（state），操作马里奥（agent）做出相应的动作（action），这一套可以理解为policy。

reward R 奖励
强化学习的目标是获得的奖励尽可能多。
state transition状态转移

观察到当前的状态s以及动作a之后，下一个状态p‘的概率

强化学习中随机性的来源

1 策略函数具有随机性，策略函数本身是一个概率密度函数
2 状态转移具有随机性

游戏中的轨迹：trajectory
s1,a1,r1,s2,a2,r2,s3,a3,r3,…
状态，动作，奖励。。。

Return 未来时刻的累积奖励（cu lulative future reward）

Rt与R(t+1)的重要性

理解（现在给你100，一年后给你100你选哪个？）
现在给你80，一年够给你160你选哪个？

综合，Rt应该是更重要一些
那么对将来预期的回报就会打一个折扣

Discounted return 折扣率，超参数，需要自己调

总而言之，目标就是让Ut越大越好
Ut是个随机变量，取决于将来的环境与动作，t时刻并不知道Ut是什么，因此为了量化Ut，就对Ut求期望，将未知数用积分消除，得到的就是一个实数。
Qpi 动作价值函数

动作价值函数Qpi的直观意义

在policy动作函数下，在St环境下做动作At是好还是坏
Qpi就是一个打分函数，不同的pi就有不同的Qpi
我们有无数种policy函数，但是我们应该选择一个最好的策略价值函数

最优动作价值函数
Q*可以告诉当前动作的评价
状态价值函数可以对当前的形势进行观察
只与s与pi有关

请添加图片描述

总结

Qpi给动作打分
Vpi给当前局势打分
请添加图片描述

请添加图片描述

kaggle竞赛指南

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习基础概念

Qpi给动作打分Vpi给当前局势打分。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

kaggle竞赛指南 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。