深度强化学习·
文章平均质量分 92
总是摸鱼的猫
天津大学深度强化学习实验室
展开
-
深度强化学习(十)(TRPO)
maxmizeJθJ是个很复杂的函数,我们甚至可能不知道J的解析表达式(比如J是某个函数的期望)现在我们可对Jθ进行近似成Lθ,使用Lθ作为我们的目标函数(比如用均值代替期望),但这个近似仅在一定范围内成立,原问题可转化为以下问题。maxmizes.tLθ∣∣θ−θnow∣∣2≤Δ仅在θnow邻域内成立这样求得了新问题的解后,将新问题的解记作θnow,继续在θnow邻域内构造新的函数L′θ。原创 2024-03-25 15:08:04 · 825 阅读 · 0 评论 -
深度强化学习(九)(改进策略梯度)
设b是任意的函数,b与A无关。把b作为动作价值函数QπSA∇θJθESEA∼π⋅∣S;θπa∣s;θpas。原创 2024-03-23 11:45:20 · 882 阅读 · 0 评论 -
深度强化学习(八)(策略梯度的近似)
在上一节中我们推出了在马尔可夫链稳态的假设下,策略梯度的表达式∇θJθESEA∼π⋅∣S;θ解析求出这个期望复杂度太大,因此我们采用蒙特卡洛方法去近似策略梯度。每次从环境中观测到一个状态s,它相当于随机变量S的观测值。a∼π⋅∣sgsa;θ很显然,gsa;θ是策略梯度∇θJθ∇。原创 2024-03-23 11:43:55 · 1071 阅读 · 0 评论 -
深度强化学习(七)策略梯度
深度强化学习(七)策略梯度策略学习的目的是通过求解一个优化问题,学出最优策略函数或它的近似函数(比如策略网络)一.策略网络假设动作空间是离散的,,比如A={左,右,上}\cal A=\{左,右,上\}A={左,右,上},策略函数π\piπ是个条件概率函数:π(a∣s)=P(A=a∣S=s)\pi(a\mid s)=\Bbb P(A=a\mid S=s)π(a∣s)=P(A=a∣S=s)与DQNDQNDQN类似,我们可以用神经网络π(a∣s;θ)\pi(a \mid s ; \boldsymb原创 2024-03-16 22:10:09 · 1026 阅读 · 0 评论 -
深度强化学习(六)(改进价值学习)
把智能体与环境交互的记录(即经验)储存到 一个数组里,事后反复利用这些经验训练智能体。这个数组被称为经验回放数组(replay buffer)。具体来说, 把智能体的轨迹划分成statrtst1这样的四元组, 存入一个数组。需要人为指定数组的大小 (记作b数组中只保留最近b条数据;当数组存满之后, 删除掉最旧的数据。数组的大小b是个需要调的超参数, 会影响训练的结果。通常设置b为105∼106。原创 2024-03-16 22:09:31 · 957 阅读 · 0 评论 -
深度强化学习(五)(蒙特卡洛与自举)
上一节介绍了多步 TD 目标。单步 TD 目标、回报是多步 TD 目标的两种特例。如下图所示, 如果设m1, 那么多步 TD 目标变成单步TD目标。如果设mn−t1, 那么多步 TD 目标变成实际观测的回报ut。原创 2024-03-16 22:08:52 · 943 阅读 · 0 评论 -
深度强化学习(四)SARSA
假设状态空间S和动作空间A都是有限集, 即集合中元素数量有限。比如,S中一共有 3 种状态,A中一共有 4 种动作。那么动作价值函数Qπsa可以表示为一个3×4的表格。该表格与一个策略函数πa∣s相关联;如果π发生变化,表格Qπ也会发生变化。我们用表格q近似Qπ。首先初始化q, 可以让它是全零的表格。然后用表格形式的 SARSA 算法更新q,每次更新表格的一个元素。最终q收敛到Qπ。原创 2024-03-12 17:33:54 · 883 阅读 · 0 评论 -
深度强化学习(三)(DQN)
通过神经网络来近似最优动作价值函数Q∗atst,在实践中, 近似学习“先知”Q⋆最有效的办法是深度Q网络 (deep Q network, 缩写 DQN), 记作Qsa;w.训练DQN最常用的算法是时间差分(在上一节中我们推导了最优贝尔曼方程Ut的期望Q⋆statESt1∼p⋅∣statRtγ⋅Ut1的期望At1∈AmaxQ⋆。原创 2024-03-12 17:32:53 · 858 阅读 · 0 评论 -
深度强化学习(二)
进一步写出显示表达式可得。的确定性函数, 所以。原创 2024-03-10 21:41:03 · 890 阅读 · 1 评论 -
深度强化学习(一)(基本概念)
是从当前时刻开始到本回合结束的所有奖励的总和, 所以回报也叫做累计奖励 (cumulative future reward)。强化学习的目标就是得到一个策略函数,在每个时刻根据观测到的状态做出决策。策略可以是确定性的,也可以是随机性的。可以把确定策略看做随机策略的一种特例,即概率全部集中在一个动作上。状态转移通常是随机的,我们用状态转移概率函数来描述随机性,在当前状态。(可以是确定的,也可以是随机的)(与当前状态,下一刻状态,当前动作都有关),或。的影响,只评价当前状态和动作的好坏,由此产生。原创 2024-03-10 21:39:58 · 829 阅读 · 1 评论