强化学习篇之马尔科夫决策过程

最新推荐文章于 2023-03-11 21:38:47 发布

玉方知

最新推荐文章于 2023-03-11 21:38:47 发布

阅读量444

点赞数 1

分类专栏：强化学习强化学习基础文章标签：机器学习人工智能强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47927764/article/details/120925395

版权

强化学习同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

强化学习基础

2 篇文章 0 订阅

订阅专栏

《强化学习基础1–马尔科夫决策过程》

文章目录

《强化学习基础1--马尔科夫决策过程》
前言

前言

强化学习是机器学习的领域之一，其重点是给定的主体在一个环境中，为了获得更大的回报，可能采取的行动。而马尔科夫决策过程是强化学习的基础，其为我们提供了一种形式化的方法——顺序决策。

提示：本系列文章为学习强化学习过程中的笔记梳理，欢迎指正！

一、马尔科夫决策过程（MDPs）是什么？

马尔科夫决策过程全称 markov decision processes，简称MDPs，

1.马尔科夫的由来

马尔科夫来自著名的俄罗斯数学家——安德烈·马尔科夫(Andrey Markov)

在这里插入图片描述
“马尔可夫”通常意味着在当前状态下，未来和过去是独立的。马尔可夫性质是所有现代强化学习算法的存在和成功的基础。

2.MDPs基本内容：

Environment ：交互的环境
Agent：实体决策者
States：所有的可能的环境状态
Actions：实体可以在环境中执行的所有操作
Rewards：实体与环境交互可以从中获得的所有奖励

3.MDPs：

在MDPs中，一个实体决策者与其放置的环境交互，随着时间的推移，相互作用会依次发生。在每一个时间步，实体将获得环境状态的一些表示，然后实体选择要执行的操作，环境随此转换成某种新状态，实体从中得到相应奖励。

在这里插入图片描述
上图很好的说明了马尔科夫决策过程的思想，从给定状态中选择动作的，过渡到新的状态并获得奖励，一次一次的连续发生，形成一种轨迹。这种顺序决策的过程就是马尔科夫决策过程。以下分步说明：

在这里插入图片描述

第一步：在时间t，环境处于状态s_t；
第二步：实体观察当前状态，并选择行动A_t；
第三步：环境转换到状态s_t+1，并授予实体奖励R_t+1；
第四步：以上过程在下一时间步重新开始。

二、马尔科夫决策过程（MDPs）数学表示

在一个MDP中，有一系列的状态 S，一系列的动作 A，一系列的奖励 R。假设这些集合都是有限的，有有限个元素。在时间 t，实体接收环境状态报告S_t,S_t属于状态集合 S。基于该状态，实体选择一个动作A_t，A_t属于状态集合 A。基于这个动作得到状态动作对（S_t,A_t），然后进入下一时间步 t+1，环境也进入新的状态 S_t+1，其也属于属于状态集合 S，并收到奖励 R_t+1，R_t+1属于状态集合 R。我们可以把这个获得奖励的过程当做一个奖励函数，即 f(S_t,A_t)=R_t+1。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习篇之马尔科夫决策过程

《强化学习篇之马尔科夫决策过程》文章目录《强化学习篇之马尔科夫决策过程》前言一、马尔科夫决策过程（MDPs）是什么？1.马尔科夫的由来2.MDPs基本内容：3.MDPs：二、马尔科夫决策过程（MDPs）数学表示前言强化学习是机器学习的领域之一，其重点是给定的主体在一个环境中，为了获得更大的回报，可能采取的行动。而马尔科夫决策过程是强化学习的基础，其为我们提供了一种形式化的方法——顺序决策。提示：本系列文章为学习强化学习过程中的笔记梳理，欢迎指正！一、马尔科夫决策过程（MDPs）是什么？
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。