强化学习
xiaocong1990
这个作者很懒,什么都没留下…
展开
-
强化学习(Reinforcement Learning, RL)初步介绍(1)
当前的机器学习算法可以分为3种:有监督的学习(Supervised Learning)、无监督的学习(Unsupervised Learning)和强化学习(Reinforcement Learning),结构图如下所示: 其他许多机器学习算法中学习器都是学得怎样做,而RL是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报。在很多场景中,当前的行动不仅会影响当前的rewards...转载 2018-04-20 21:19:57 · 774 阅读 · 0 评论 -
从Multi-arm Bandits问题分析 - RL进阶(2)
RL与其他学习方法最大的区别在于它使用的训练信息是对actions的评价,而其他方法是给出正常的actions。这一次的教程就是通过一个具体的案例来对RL问题中的“evaluative aspect”进行介绍。1、问题介绍:k-armed Bandit Problem Multi-armed bandit原本是从赌场中的多臂老虎机的场景中提取出来的数学模型,其中 arm 指的是老转载 2018-04-20 21:32:35 · 255 阅读 · 0 评论 -
有限马尔可夫决策过程(Finite Markov Decision Processes(3)
本次总结中的 1-4 小节主要介绍了增强学习中的一些重要的概念,如:Goals、Rewards、Returns、Episode 等,第 5 小节介绍了 Markov Property,第 6 小节介绍了 Markov Decision Processes,第 7、8 小节介绍了 RL 中的 Value Function。可以说这次总结也是为之后介绍 RL 相关算法做了铺垫。 1 增强学转载 2018-04-21 13:24:50 · 665 阅读 · 0 评论 -
动态编程(Dynamic Programming, DP)(4)
之前介绍的知识都是基础,从这次开始才真正开始介绍增强学习的解法方法。 动态编程(Dynamic Programming, DP)这个词大家肯定都不陌生,在解决算法编程问题当中经常会用到,它的主要思想就是将一个复杂的问题分解成多个子问题,将子问题的解结合在一起就构成了原问题的解,它常常适合于解决具有如下两种属性的问题: (1)优化的子结构:优化解常常可以分解成子问题; (2)转载 2018-04-21 13:59:52 · 2746 阅读 · 0 评论 -
蒙特卡洛方法 (Monte Carlo Method)(5)
与上一节动态编程(DP)方法不同的是,蒙特卡洛(Monte Carlo, MC)方法不需要环境的全部信息,而只需要 “experience”,这里的“experience”指的是 states、actions和环境的 rewards 的采样序列。在机器学习领域,不需要环境动态性的先验知识是非常重要的一个优点,蒙特卡洛方法从真实的或者仿真的 experience 中进行学习,虽然它也需要一个环境模型转载 2018-04-21 14:38:49 · 1368 阅读 · 0 评论 -
Temporal-Difference (TD) Learning (6)
Temporal-difference (TD) learning可以说是增强学习的中心,它集成了蒙特卡洛思想和动态编程(dynamic programming, DP)思想,像蒙特卡洛方法一样,TD 方法不需要环境的动态模型,直接从经验经历中学习,像 DP 方法一样,TD 方法不需要等到最终的 outcome 才更新模型,它可以基于其他估计值来更新估计值。1、TD Prediction转载 2018-04-21 14:56:21 · 415 阅读 · 0 评论