强化学习的概念及学习过程

强化学习的概念
强化学习主要由智能体(agent)和环境(environment)两部分组成。智能体代表具有行为能力的物体,环境指智能体执行动作时所处的场景。其目标是寻找一个最优策略,使智能体在运动过程中获得的累积奖励最大。
强化学习图示
通俗的说:
强化学习算法通过不断的与用户进行交互,先推送少量的类似信息给用户,看用户的反馈,然后根据用户的反馈再推送相关的内容,并在后序交互过程中继续根据用户的反馈不断维护和更新上述内容。

学习过程
强化学习可以用四元组<S,A,P,R>表示,其中S为状态集合、A为动作集合、P为状态转移函数、R为奖励函数,其计算流程如下:

(1)在时刻 t t t,智能体所处状态为 s t ∈ S s_t \in S stS,此时需要一定的策略policy从动作集合中选择一个动作 a t ∈ A a_t \in A atA。动作的连续性和集合的大小会直接影响到后面的结果;

(2)在完成动作 a t a_t at后,环境会给出一个强化信号 r t r_t rt(奖励或者惩罚),经典的强化信号计算方法为:

G t G_t Gt= r t + r t + 1 + . . . + γ n r t + n r_t+r_{t+1}+...+\gamma^nr_{t+n} rt+rt+1+...+γnrt+n

其中 G t G_t Gt为奖励的回报, γ \gamma γ是衰减因子 0 ≤ γ ≤ 1 0\leq \gamma \leq 1 0γ1, n n n是奖励的积累步骤,可以取到无限大。当 γ = 0 \gamma=0 γ=0时,回报只考虑当下的奖励,当 γ = 1 \gamma=1 γ=1时,回报会考虑整个过程的影响;

(3)动作 a t a_t at同时会改变环境。从当前状态 s t s_t st转移到下一状态 s t + 1 s_{t+1} st+1,在此之后,智能体根据 t + 1 t+1 t+1时刻的状态 s t + 1 s_{t+1} st+1选择下一个动作,进入下一个时间点的迭代。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值