深度强化学习
文章平均质量分 93
11
温酒煮青梅
初级打工人
展开
-
TD3与DPG、DDPG、Double DQN解析
TD3与DPG、DDPG、Double DQN解析文章目录TD3与DPG、DDPG、Double DQN解析0 - 前言1 - 回顾DPG2 - 回顾DDPG3 - 回顾Double DQN4 - TD3算法0 - 前言本文是对【上海交通-陈伟哲】的哔站TD3讲解视频做的笔记,图片均来自视频中或论文中,注意本文的阅读需要提前看一下TD3的原文参考:TD3参考:https://www.bilibili.com/video/BV1nE41117CR?from=search&seid=7053原创 2021-03-22 15:09:45 · 2524 阅读 · 0 评论 -
五、策略梯度
五、策略梯度文章目录五、策略梯度1.1 名词介绍1.2 policy1.2.1 actor与环境互动1.2.2 轨迹1.3 蒙特卡洛(MC)和时序差分(TD)的联系与区别1.4 REINFORCE的计算过程1.1 名词介绍首先介绍几个名词:actor:产生并执行策略或动作(policy或者action)的东西。比如打游戏,actor就是手柄,操纵角色移动。environment:同样是打游戏,environment 就是主机,能够根据手柄输出的信号改变什么,比如角色进攻、怪物被打死等。rewar原创 2020-10-26 21:55:33 · 153 阅读 · 0 评论 -
三、表格型方法
三、表格型方法文章目录三、表格型方法Sarsaon-policy和off-policyQ-learningSarsaMDP问题可以表示为四元组(S,A, R,P)。S为状态,A为动作,R为奖励,P为转移概率。也可以在四元组的基础上再加一个衰减因子γ表示为五元组。如果我们知道这些状态转移概率和奖励函数的话,就说这个环境是已知的,因为我们是用这两个函数去描述环境的。我们用价值函数V,V是状态S的函数,来代表这个状态是好的还是坏的。然后用 Q 函数来判断说在什么状态下做什么动作能够拿到最大奖励,用 Q 函原创 2020-10-24 20:18:06 · 288 阅读 · 0 评论 -
二、MDP问题
MDP问题文章目录MDP问题马尔科夫性与马尔科夫奖励贝尔曼方程MDP policy简单回忆一下上一篇笔记 一、强化学习基础 中讲到的agent与environment交互的过程:当环境environment处于某个状态state时,智能体agent采取某个动作action,该动作会对environment产生影响,使environment进入下一个状态state’,并且在状态改变的时刻,环境还会给出一个奖励reward。流程图如下所示:马尔科夫性与马尔科夫奖励学过随机过程的小伙伴都应该知道,马尔科原创 2020-10-22 18:27:17 · 2951 阅读 · 0 评论 -
一、强化学习基础
强化学习基础文章目录强化学习基础概念与监督学习对比Exploration(探索) 和 exploitation(剥削)强化学习实例DRL=DL+RL序列决策交互过程Reward序列决策马尔科夫决策过程动作空间Agent的组成Policy functionValue functionModel基于不同函数的agent举一个走迷宫的例子Model-free与Model-based概念强化学习讨论的问题是一个 智能体 agent 怎么在一个复杂不确定的环境 environment 里面去极大化它能获得的原创 2020-10-18 17:46:00 · 739 阅读 · 2 评论