强化学习
winycg
问题可联系QQ:1241981936
展开
-
强化学习-DQN
参考链接:Deep Q Network 的简称叫 DQN, 是将 Q learning 的优势 和 Neural networks 结合了. 如果我们使用 tabular Q learning, 对于每一个 state, action 我们都需要存放在一张 q_table 的表中. 如果像显示生活中, 情况可就比那个迷宫的状况复杂多了, 我们有千千万万个 state, 如果将这千万个 state ...原创 2018-02-23 18:36:05 · 849 阅读 · 1 评论 -
model-free强化学习-Policy-based
Policy-based将神经网络作为一个Actor,输入是观测observation,表示形式是一个向量或一个矩阵。输出是每个行为对应的概率,类似于分类问题中的判断类别,会对应每个类别有个概率,如下如所示:考虑一个episode τ={s1,a1,r1,s2,a2,r2,...,sT,aT,rT,}\tau=\{s_{1},a_{1}, r_{1},s_{2},a_{2}, r_{2},....原创 2019-05-20 00:42:13 · 589 阅读 · 0 评论 -
使用gym模拟强化学习环境
参考链接: OpenAI环境库官网:https://gym.openai.com/envs/ OpenAI环境库github:https://github.com/openai/gym/Classic controlCartPole 环境描述:运载体无摩擦地支撑杆子。 动作:2个动作:施加-1和+1分别对应向左向右推动运载体 状态:4个,x:位置;x_dot:移动速度, th...原创 2018-04-11 15:55:24 · 12964 阅读 · 3 评论 -
使用gym库Classic control实现deep Q learning
参考链接:https://gym.openai.com/envs/ OpenAI gym官网https://github.com/openai/gym#installation gym安装教程http://blog.csdn.net/cs123951/article/details/77854453 MountainCar原理参考OpenAI gym提供了强化学习时的环境模块,使得我们实现...原创 2018-03-07 11:30:06 · 3217 阅读 · 4 评论 -
ES实现强化学习
参考文献: ES实现强化学习论文-from OpenAI Mirrored Sampling and Sequential Selection for Evolution Strategies https://morvanzhou.github.io/tutorials/machine-learning/evolutionary-algorithm/4-04-evolution-strate...原创 2018-03-24 23:49:30 · 3847 阅读 · 1 评论 -
强化学习-Q learning
参考链接:http://blog.csdn.net/itplus/article/details/9361915https://www.zhihu.com/question/26408259/answer/123230350https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/2-2-A-q-l...原创 2018-02-05 00:40:19 · 4093 阅读 · 1 评论 -
强化学习-Sarsa
教学链接:https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/3-1-A-sarsa/学习该算法之前,需要先了解Q-learning,与之进行比较,Q-learning教程:http://blog.csdn.net/winycg/article/details/79255960比较一下Q-le...原创 2018-02-18 19:27:19 · 2330 阅读 · 0 评论 -
强化学习-Policy Gradients
策略网络,即建立一个神经网络模型,通过观察环境状态,直接预测出目前应该执行的策略(Policy),执行这个策略可以获得最大期望收益。策略网络不只是使用当前的reward作为期望收益,而是使用discounted future reward,即把未来奖励乘上衰减系数γ,γ为略小于1的数,期望收益为r=r1+γr2+γ2r3+⋯+γn−1rnr=r1+γr2+γ2r3+⋯+γn−1rnr=r_{1}+...原创 2018-03-19 22:57:31 · 1694 阅读 · 0 评论 -
强化学习概论2
参考链接:https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/1-1-A-RL/https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/1-1-B-RL-methods/定义强化学习是一...原创 2019-05-20 21:38:52 · 542 阅读 · 0 评论