斯坦福吴恩达《机器学习》--增强学习

本文深入探讨了吴恩达在斯坦福大学的机器学习课程中的增强学习部分,涵盖MDP(马尔科夫决策过程)、价值迭代、策略迭代,以及连续状态的MDP处理方法。通过奖励函数,学习算法学习如何做出最优决策以获得最大奖励,在机器人控制、网络路由等领域有广泛应用。
摘要由CSDN通过智能技术生成

增强学习和控制

  在监督学习中,算法试图模仿训练机的labels y,训练集中的每一个输入x都有一个确定的对应的y,但是对于很多需要连续作决定的问题和控制问题,给算法提供一个明确的标签是很难的。例如我们有一个四足机器人,并且试图让他行走,开始的时候我们并不知道采取怎样的操作使他行走,也不知道怎么给算法提供一个标签来模仿。
  在增强学习中,我们会给算法提供一个奖励函数来反应做的好还是不好。例如对于上述的4足机器人,当他向前行走是给出正面的奖励,当他向后退或者摔倒时给出负面的奖励。然后学习算法就会学习选择怎样的操作来获取更多的奖励。
  增强学习在自治直升机、机器人、手机网络路由、销售策略选择、工业控制、网页索引等多领域取得了成功。对增强学习的研究从MDP(Markov desicion processes)开始。

1.MDP

  MDP是一个元组(S,A,Psa γ ,R),S是状态集,A是状态集,Psa是处于状态s采用动作a的状态转移概率, γ 是折现因子,R是SA的奖励函数。
  MDP过程如下:初始状态 s0 ,采用动作 a0 ,按照Ps0a0转移到状态 s1

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值