强化学习-几个基本概念

马尔科夫性

指系统的下一个状态这里写图片描述仅与当前状态这里写图片描述有关,而与以前的状态无关。
即:这里写图片描述

马尔科夫过程

马尔科夫过程是一个二元组这里写图片描述,且满足:S是有限状态集合, P是状态转移概率。状态转移概率矩阵为:

这里写图片描述
如:P的第一行表示,由状态1转到各个状态分别的概率
举例:

未来几天可能的一个序列是:多云–雨天–雨天–晴天–多云,形成一个马尔科夫链

马尔科夫决策过程MDP

马尔科夫决策过程(MDP)可以这样描述:这里写图片描述
S 是一个有限状态集
A 是有限动作集
P 是状态转移概率(这里的P不同于马尔科夫过程中的P,因为它引入了动作A的因素,因此这里写图片描述
R 是回报函数

如图
这里写图片描述
S:S1,S2,S3
A:a0, a1
P : 比如,在状态S0采取动作a0,其转移概率为:0.5的概率到达S0,0.5的概率到达S2

策略policy

强化学习的目标是:根据给定的一个马尔科夫决策过程,寻找最优策略。
策略:是指状态到动作的映射。常用这里写图片描述 表示
注意:所谓状态到动作的映射,并非指某个状态只对应一个动作,而是指一个状态下采取各个动作的概率,比如,0.2的概率执行a1动作,0.3的概率执行a2动作,0.5的概率执行a3动作,0的概率执行a4动作,这就是该状态下的策略

可用如下表达式:这里写图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值