【自用笔记】3.1马尔科夫链

本文详细探讨了强化学习中的马尔科夫链模型,涉及智能体行为、奖励机制及马尔科夫决策过程的解决方案。
摘要由CSDN通过智能技术生成

怎样正确理解马尔科夫链? - 知乎 (zhihu.com)

 总结:当智能体从一个状态S,选择动作A,会进入另外一个状态S';同时,也会给智能体奖励R。 奖励既有正,也有负。正代表我们鼓励智能体在这个状态下继续这么做;负得话代表我们并不希望智能体这么做。 在强化学习中,我们会用奖励R作为智能体学习的引导,期望智能体获得尽可能多的奖励。

1 强化学习的任务

1.1 是什么:智能体独立自主地完成某种任务

1.2 从哪里学:环境

1.3 如何学:把问题抽象为模型

2 马可洛夫链(一种模型)

2.1 三元素:

  • S(state)状态:当前环境的部分或者全部特征   

          **s_dim状态空间:智能体能够观察到的特征数量

  • A(action)行动:智能体做出的具体行为

          **a_dim动作空间:智能体能够做出的动作数量

  • R(reward)奖励/反馈:奖励可以是正数,表示鼓励当前的行为;如果是负数负数,表示惩罚这种行为。

2.2 强化学习的一般步骤

  1. 智能体在环境中,观察到状态(S);
  2. 状态(S)被输入到智能体,智能体经过计算,选择动作(A);
  3. 动作(A)使智能体进入另外一个状态(S),并返回奖励(R)给智能体。
  4. 智能体根据返回,调整自己的策略。 重复以上步骤,一步一步创造马尔科夫链。

2.3 两种不确定性

  1. 不同动作之间的选择:智能体的策略Pi,eg 智能体给出卸载策略
  2. 环境的随机性,eg 用户任务随机生成,遮挡发生变化

eg 初始s——>a——>step()——>reset()——>s_

3 马尔科夫决策过程(Markov Decision Process,简称为MDP)

3.1 特征

     具有延迟回报性质,当前状态下的最优动作不一定具有长远利益

相反,贪心是一种只考虑眼前情况的策略


3.2 MDP基本的解法

    - 动态规划法(dynamic programming methods)DP
    - 蒙特卡罗方法(Monte Carlo methods)
    - 时间差分法(temporal difference)

TD综合了MC和DP的优点,因此这也是我们在RL中常用的方法。

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值