强化学习-几个基本概念

最新推荐文章于 2024-05-27 10:11:45 发布

「已注销」

最新推荐文章于 2024-05-27 10:11:45 发布

阅读量1.9k

点赞数 1

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xtingjie/article/details/70493751

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

马尔科夫性

指系统的下一个状态这里写图片描述仅与当前状态有关，而与以前的状态无关。
即：

马尔科夫过程

马尔科夫过程是一个二元组这里写图片描述，且满足：S是有限状态集合， P是状态转移概率。状态转移概率矩阵为：

这里写图片描述
如：P的第一行表示，由状态1转到各个状态分别的概率
举例：

未来几天可能的一个序列是：多云–雨天–雨天–晴天–多云，形成一个马尔科夫链

马尔科夫决策过程MDP

马尔科夫决策过程（MDP）可以这样描述：这里写图片描述
S 是一个有限状态集
A 是有限动作集
P 是状态转移概率（这里的P不同于马尔科夫过程中的P，因为它引入了动作A的因素，因此）
R 是回报函数

如图
这里写图片描述
S：S1，S2，S3
A：a0， a1
P : 比如，在状态S0采取动作a0，其转移概率为：0.5的概率到达S0，0.5的概率到达S2

策略policy

强化学习的目标是：根据给定的一个马尔科夫决策过程，寻找最优策略。
策略：是指状态到动作的映射。常用这里写图片描述表示
注意：所谓状态到动作的映射，并非指某个状态只对应一个动作，而是指一个状态下采取各个动作的概率，比如，0.2的概率执行a1动作，0.3的概率执行a2动作，0.5的概率执行a3动作，0的概率执行a4动作，这就是该状态下的策略

可用如下表达式：这里写图片描述

「已注销」

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习-几个基本概念

马尔科夫性指系统的下一个状态仅与当前状态有关，而与以前的状态无关。即：马尔科夫过程马尔科夫过程是一个二元组，且满足：S是有限状态集合， P是状态转移概率。状态转移概率矩阵为：如：P的第一行表示，由状态1转到各个状态分别的概率举例：未来几天可能的一个序列是：多云–雨天–雨天–晴天–多云，形成一个马尔科夫链马尔科夫决策过程MDP马尔科夫决策过程（MDP）可以这样描述： S 是一个有限状态集
复制链接

扫一扫

专栏目录

「已注销」 CSDN认证博客专家 CSDN认证企业博客

码龄7年

76: 原创

-: 周排名

-: 总排名

95万+: 访问

: 等级

4466: 积分

102: 粉丝

413: 获赞

48: 评论

1296: 收藏

私信

关注

热门文章

分类专栏

HTML JavaScript CSS 16篇
笔记 1篇
算法 1篇
PPT 2篇
MATLAB 12篇
markdown编辑器 3篇
遗传算法 3篇
office 6篇
神经网络 3篇
支持向量机 2篇
强化学习 2篇
Python 23篇
numpy 5篇
scipy 1篇
matplotlib 3篇
机器学习 16篇
sklearn 2篇
python爬虫 3篇

最新评论

python爬虫：抓取页面上的超链接
m0_73724599: 为什么会爬出非超链接的东西
scipy常数
Chasing Aurora: 放屁，e是自然常数，那是电子好吗？
HTML+JavaScript实现在浏览器里自由画线1.0
m0_71020588: 你好老师，这个代码，我运行后，成功了，前面是忘了保存，刚才重新看了一下，保存后运行，能在html浏览器上，进行鼠标涂鸦了，现在是几个问题，1，这个是白底的颜色，能否把颜色改为透明色，2，这个涂鸦区域是固定的，能否自定义为能在整个屏幕上批注，3，能否把这个web上批注的功能，作成是一个叠加图层，叠加在电脑幕屏（或web浏览器的）任意一个界面上，不管是游戏还是视频还是网页还是wps，都可以叠加在这些界面上，4，还是应该开发几个批注的工具菜单，线条可以换颜色，线条可以调粗细，5，可以定一个白板批注状态，透明批注状态，黑板批注状态，青绿色批注状态（就象学校教室的黑板是青绿色），6，有一个键是能清空批注，有撤销，有像皮擦，……还能一键截图保存当前的屏幕批注画面到指定的文件夹，还可以一键录屏，把批注过程录制成一个视频，保存到指定文件夹，以上，盼老师能继续开发，谢了！
HTML+JavaScript实现在浏览器里自由画线1.0
m0_71020588: 我看了一下您的代码，是要用鼠标来作这个按下左键进入这个操作界面，您可以看一下epic pen，这个软件可以配手写板，用手写笔在wacom手写板上进行屏幕批注，很方便的
HTML+JavaScript实现在浏览器里自由画线1.0
m0_71020588: 您好老师，我把您这个代码导入到vscode，运行，没有成功，我是想弄一个屏幕批注，类似于win系统的那个epic pen软件，可以叠加在任何一个屏幕或软件的界面上，不管这个软件界面是视频的还是网页的还是word还是游戏，它都在叠加在这些界面上，任意写字，不知能否加您微信，好好交流一下，能否复刻一个epic pen那样的软件，谢谢了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。