机器学习
小时候挺菜
这个作者很懒,什么都没留下…
展开
-
机器学习的分类
监督学习:给机器一个模型类的东西,然后机器可以根据这个模型判断其他模型,例如给一张猫的照片,机器可以自己识别其他图片是不是猫。非监督学习:没有给模型,机器自己判断,发现规律半监督学习:用少量有标签的样本和大量没标签的样本学习和分类强化学习:处在陌生环境中,自己不断尝试完成任务遗传算法:通过淘汰机制选择最优模型原创 2017-11-07 15:12:10 · 308 阅读 · 0 评论 -
强化学习入门第一讲 马尔科夫决策过程
强化学习入门第一讲 马尔科夫决策过程强化学习算法理论的形成可以追溯到上个世纪七八十年代,近几十年来强化学习算法一直在默默地不断进步,真正火起来是最近几年。代表性的事件是DeepMind 团队于2013年12月首次展示了机器利用强化学习算法在雅达利游戏中打败人类专业玩家,其成果在2015年发布于顶级期刊《自然》上;2014年,谷歌将DeepMind 团队收购。2016年3月,DeepMind转载 2017-12-01 14:18:04 · 2892 阅读 · 4 评论 -
强化学习基础 第二讲 基于模型的动态规划算法
强化学习基础 第二讲 基于模型的动态规划算法上一讲我们将强化学习的问题纳入到马尔科夫决策过程的框架下进行解决。一个完整的已知模型的马尔科夫决策过程可以利用元组来表示。其中 为状态集,为动作集, 为转移概率,也就是对应着环境和智能体的模型,为回报函数,为折扣因子用来计算累积回报。累积回报公式为,其中,为有限值时,强化学习过程称为有限范围强化学习,当 时,称为无穷范围强化学习。我们以有限范围强转载 2017-12-01 14:31:13 · 2837 阅读 · 0 评论 -
强化学习基础 第三讲 蒙特卡罗方法
强化学习基础 第三讲 蒙特卡罗方法上一节课我们讲了已知模型时,利用动态规划的方法求解马尔科夫决策问题。从这节课开始,我们讲无模型的强化学习算法。图3.1 强化学习方法分类解决无模型的马尔科夫决策问题是强化学习算法的精髓。如图3.1所示,无模型的强化学习算法主要包括蒙特卡罗方法和时间差分方法。这一节我们先讲蒙特卡罗的方法。在讲解蒙特卡罗方法之前,先梳理一下整个强化转载 2017-12-01 14:32:04 · 2764 阅读 · 0 评论 -
强化学习入门第四讲 时间差分方法
强化学习入门第四讲 时间差分方法上一节我们已经讲了无模型强化学习最基本的方法蒙特卡罗方法。本节,我们讲另外一个无模型的方法时间差分的方法。图4.1 强化学习算法分类时间差分(TD)方法是强化学习理论中最核心的内容,是强化学习领域最重要的成果,没有之一。与动态规划的方法和蒙特卡罗的方法比,时间差分的方法主要不同点在值函数估计上面。图4.转载 2017-12-01 14:32:47 · 1479 阅读 · 0 评论 -
强化学习入门 第五讲 值函数逼近
前面已经讲了强化学习的基本方法:基于动态规划的方法,基于蒙特卡罗的方法和基于时间差分的方法。这些方法有一个基本的前提条件,那就是状态空间和动作空间是离散的,而且状态空间和动作空间不能太大。我们回想一下已经介绍的强化学习方法的基本步骤是:首先评估值函数,接着利用值函数改进当前的策略。其中值函数的评估是关键。对于模型已知的系统,值函数可以利用动态规划的方法得到;对于模型未知的系统,转载 2017-12-01 14:33:38 · 2851 阅读 · 0 评论 -
转自知乎,深度强化学习论文https://zhuanlan.zhihu.com/p/23600620
一. 开山鼻祖DQN1.Playing Atari with Deep Reinforcement Learning,V. Mnih et al., NIPS Workshop, 2013.2.Human-level control through deep reinforcement learning, V. Mnih et al., Nature, 2015.二. DQN的各种...转载 2019-06-11 21:32:32 · 2240 阅读 · 0 评论