强化学习
文章平均质量分 91
LeeHiking
这个作者很懒,什么都没留下…
展开
-
Deep Q Network (DQN)(extend)
Double DQN (Tensorflow)要点本篇教程是基于 Deep Q network (DQN) 的选学教程. 以下教程缩减了在 DQN 方面的介绍, 着重强调 Double DQN 和 DQN 在代码上不同的地方. 所以还没了解 DQN 的同学们, 有关于 DQN 的知识, 请从 这个视频 和 这个Python教程 开始学习.接下来我们说说为什么会有 Double DQN 这种算...转载 2021-03-16 19:43:21 · 256 阅读 · 0 评论 -
Deep Q Network (DQN)(base)
什么是DQN今天我们会来说说强化学习中的一种强大武器, Deep Q Network 简称为 DQN. Google Deep mind 团队就是靠着这 DQN 使计算机玩电动玩得比我们还厉害.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.强化学习与神经网络之前我们所谈论到的强化学习方法都是比较传统的方式, 而如今, 随着机器学习在日常生活中的各种应用, 各种...转载 2021-03-16 19:42:38 · 315 阅读 · 0 评论 -
Sarsa
今天我们会来说说强化学习中一个和 Q learning 类似的算法, 叫做 Sarsa.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.在强化学习中 Sarsa 和 Q learning 及其类似, 这节内容会基于之前我们所讲的 Q learning. 所以还不熟悉 Q learning 的朋友们, 请前往我制作的 Q learning 简介 (知乎专栏). 我们...转载 2019-09-29 14:38:54 · 486 阅读 · 1 评论 -
Q Learning
行为准则 :好的行为 -> 得到奖励坏的行为 -> 没有奖励,还有惩罚比如小时候爸妈常说”不写完作业就不准看电视”.所以我们在 写作业的这种状态下,好的行为就是继续写作业, 直到写完它, 我们还可以得到奖励,不好的行为 就是没写完就跑去看电视了, 被爸妈发现, 后果很严重.Q learning 也是一个决策过程, 和小时候的这种情况差不多.我们举例说明.假设现在我们处...转载 2019-09-28 17:30:21 · 404 阅读 · 1 评论