【自用笔记】3.1马尔科夫链

急急黄豆

已于 2024-03-09 08:21:20 修改

阅读量96

点赞数 3

分类专栏：强化学习文章标签：笔记

于 2024-03-01 15:17:10 首次发布

原文链接：https://zhuanlan.zhihu.com/p/109217883

版权

强化学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文详细探讨了强化学习中的马尔科夫链模型，涉及智能体行为、奖励机制及马尔科夫决策过程的解决方案。

摘要由CSDN通过智能技术生成

怎样正确理解马尔科夫链？ - 知乎 (zhihu.com)

总结：当智能体从一个状态S，选择动作A，会进入另外一个状态S'；同时，也会给智能体奖励R。奖励既有正，也有负。正代表我们鼓励智能体在这个状态下继续这么做；负得话代表我们并不希望智能体这么做。在强化学习中，我们会用奖励R作为智能体学习的引导，期望智能体获得尽可能多的奖励。

1 强化学习的任务

1.1 是什么：智能体独立自主地完成某种任务

1.2 从哪里学：环境

1.3 如何学：把问题抽象为模型

2 马可洛夫链（一种模型）

2.1 三元素：

S（state）状态：当前环境的部分或者全部特征

**s_dim状态空间：智能体能够观察到的特征数量

A（action）行动：智能体做出的具体行为

**a_dim动作空间：智能体能够做出的动作数量

R（reward）奖励/反馈：奖励可以是正数，表示鼓励当前的行为；如果是负数负数，表示惩罚这种行为。

2.2 强化学习的一般步骤

智能体在环境中，观察到状态(S)；
状态(S)被输入到智能体，智能体经过计算，选择动作(A);
动作(A)使智能体进入另外一个状态(S)，并返回奖励(R)给智能体。
智能体根据返回，调整自己的策略。重复以上步骤，一步一步创造马尔科夫链。

2.3 两种不确定性

不同动作之间的选择：智能体的策略Pi，eg 智能体给出卸载策略
环境的随机性，eg 用户任务随机生成，遮挡发生变化

eg 初始s——>a——>step()——>reset()——>s_

3 马尔科夫决策过程（Markov Decision Process，简称为MDP）

3.1 特征

具有延迟回报性质，当前状态下的最优动作不一定具有长远利益

相反，贪心是一种只考虑眼前情况的策略

3.2 MDP基本的解法

- 动态规划法(dynamic programming methods)DP
- 蒙特卡罗方法(Monte Carlo methods)
- 时间差分法(temporal difference)

TD综合了MC和DP的优点，因此这也是我们在RL中常用的方法。

急急黄豆

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【自用笔记】3.1马尔科夫链

*s_dim状态空间：智能体能够观察到的特征数量。**a_dim动作空间：智能体能够做出的动作数量。eg 初始s——>a——>step()——>reset()——>s_1.1 是什么：智能体独立自主地完成某种任务。1.3 如何学：把问题抽象为模型。1.2 从哪里学：环境。
复制链接

扫一扫