强化学习 初识

在强化学习中,环境状态的转移和环境反馈给Agent的奖赏是不受Agent个体控制的,Agent只能通过选择要执行的动作来影响环境,并通过观察转移后的状态和环境反馈的奖赏值来感知环境,Agent的强化学习过程即是通过不断尝试各种动作-状态策略,并通过环境反馈的奖赏不断调整策略,从而达到在某一环境状态中Agent能选择最优的动作进而得到最大奖赏这一结果。最近我主要学习了free model思想的强化学习方法,顾名思义,由于在现实生活的强化学习任务重,环境状态的转移概率、奖赏函数往往都很难确定,甚至我们不清楚环境中存在多少的状态,即状态转移概率T、奖赏函数R均未知,这种不依赖环境的建模即为free model。最典型的free model的模型有时序差分学习方法(TD算法),Q-学习(Q-learning)算法。
在了解TD学习和Q学习时,需要先了解一些定义。强化学习中,学习环境的不同会有不同的学习策略。在马尔科夫环境中,一个重要的概念便是马尔科夫决策过程(MDP)。
定义1 马尔科夫决策过程:MDP包含一个环境状态集合S,Agent的行为集合A,奖赏函数R,R(s,a,s’)表示Agent在状态s采用动作a使环境转移至s’时获得的瞬时奖赏值,状态转移函数T,T(s,a,s’)表示Agent在状态s采用动作a使环境状态转移到s’的概率。
MDP的本质是:MAS环境中当前状态向下一状态转移的概率T和瞬时奖赏R只取决于当前状态和选择的动作,而与历史状态和动作均无关。因此在已知状态转移概率T和瞬时奖赏函数R的MAS环境中,可以采用动态规划技术求解最优策略。而强化学习中,重点在于研究当转移概率T和奖赏函数R未知的情况下,Agent如何通过学习获得最优的行为策略。目前通用的解决方案是采用迭代技术来调整当前状态和下一状态的值函数的估计值。
学习目标:(1)

(1) (1) 数 学 公 式

(2)
(3)
三种学习目标可以视情况选择,其中(1)为无限折扣模型,即考虑Agent从环境状态st转移到状态st+1后所接受到的奖赏ri,并以某种形式的折扣累积在值函数中,γ为折扣因子;(2)为有限模型,即Agent只考虑未来有限步h步的累积奖赏的和;(3)为平均奖赏模型,Agent考虑长期平均奖赏值。
确定好学习目标,则可以根据下式确定最优行为策略,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值