- 博客(30)
- 收藏
- 关注
原创 迁移强化学习论文笔记(一)(Successor Features)
迁移强化学习论文笔记(一)(Successor Features)一.Background and problem formulationM≡(S,A,p,R,γ)M \equiv(\mathcal{S}, \mathcal{A}, p, R, \gamma)M≡(S,A,p,R,γ)S\cal SS:状态空间A\cal AA:行动空间ppp:p(⋅∣st,at)p(\cdot\mid s_t,a_t)p(⋅∣st,at)状态转移概率RRR:R(st,at,st+1)R(s_t,a_t,s_
2024-04-14 12:41:35
962
原创 深度强化学习(十)(TRPO)
maxmizeJθJ是个很复杂的函数,我们甚至可能不知道J的解析表达式(比如J是某个函数的期望)现在我们可对Jθ进行近似成Lθ,使用Lθ作为我们的目标函数(比如用均值代替期望),但这个近似仅在一定范围内成立,原问题可转化为以下问题。maxmizes.tLθ∣∣θ−θnow∣∣2≤Δ仅在θnow邻域内成立这样求得了新问题的解后,将新问题的解记作θnow,继续在θnow邻域内构造新的函数L′θ。
2024-03-25 15:08:04
813
原创 深度强化学习(九)(改进策略梯度)
设b是任意的函数,b与A无关。把b作为动作价值函数QπSA∇θJθESEA∼π⋅∣S;θπa∣s;θpas。
2024-03-23 11:45:20
865
原创 深度强化学习(八)(策略梯度的近似)
在上一节中我们推出了在马尔可夫链稳态的假设下,策略梯度的表达式∇θJθESEA∼π⋅∣S;θ解析求出这个期望复杂度太大,因此我们采用蒙特卡洛方法去近似策略梯度。每次从环境中观测到一个状态s,它相当于随机变量S的观测值。a∼π⋅∣sgsa;θ很显然,gsa;θ是策略梯度∇θJθ∇。
2024-03-23 11:43:55
1045
原创 深度强化学习(七)策略梯度
深度强化学习(七)策略梯度策略学习的目的是通过求解一个优化问题,学出最优策略函数或它的近似函数(比如策略网络)一.策略网络假设动作空间是离散的,,比如A={左,右,上}\cal A=\{左,右,上\}A={左,右,上},策略函数π\piπ是个条件概率函数:π(a∣s)=P(A=a∣S=s)\pi(a\mid s)=\Bbb P(A=a\mid S=s)π(a∣s)=P(A=a∣S=s)与DQNDQNDQN类似,我们可以用神经网络π(a∣s;θ)\pi(a \mid s ; \boldsymb
2024-03-16 22:10:09
976
原创 深度强化学习(六)(改进价值学习)
把智能体与环境交互的记录(即经验)储存到 一个数组里,事后反复利用这些经验训练智能体。这个数组被称为经验回放数组(replay buffer)。具体来说, 把智能体的轨迹划分成statrtst1这样的四元组, 存入一个数组。需要人为指定数组的大小 (记作b数组中只保留最近b条数据;当数组存满之后, 删除掉最旧的数据。数组的大小b是个需要调的超参数, 会影响训练的结果。通常设置b为105∼106。
2024-03-16 22:09:31
938
原创 深度强化学习(五)(蒙特卡洛与自举)
上一节介绍了多步 TD 目标。单步 TD 目标、回报是多步 TD 目标的两种特例。如下图所示, 如果设m1, 那么多步 TD 目标变成单步TD目标。如果设mn−t1, 那么多步 TD 目标变成实际观测的回报ut。
2024-03-16 22:08:52
901
原创 807补充(十一)(鞍论与随机逼近理论篇)
我们在测度论的基础上建立概率论的一个主要原因是它能够严格地描述随机序列的收敛性。考虑随机序列XkX1X2XkXkX1X2Xk这个序列中的每个元素都是定义在三元组上的随机变量ΩFPΩFP。Sure convergence:(点收敛)XkXkXXXiflimk→∞XkωXωfor allω∈Ωk→∞limXkωXωfor allω∈Ωlimk→∞Xk。
2024-03-15 19:14:36
951
原创 深度强化学习(四)SARSA
假设状态空间S和动作空间A都是有限集, 即集合中元素数量有限。比如,S中一共有 3 种状态,A中一共有 4 种动作。那么动作价值函数Qπsa可以表示为一个3×4的表格。该表格与一个策略函数πa∣s相关联;如果π发生变化,表格Qπ也会发生变化。我们用表格q近似Qπ。首先初始化q, 可以让它是全零的表格。然后用表格形式的 SARSA 算法更新q,每次更新表格的一个元素。最终q收敛到Qπ。
2024-03-12 17:33:54
870
原创 深度强化学习(三)(DQN)
通过神经网络来近似最优动作价值函数Q∗atst,在实践中, 近似学习“先知”Q⋆最有效的办法是深度Q网络 (deep Q network, 缩写 DQN), 记作Qsa;w.训练DQN最常用的算法是时间差分(在上一节中我们推导了最优贝尔曼方程Ut的期望Q⋆statESt1∼p⋅∣statRtγ⋅Ut1的期望At1∈AmaxQ⋆。
2024-03-12 17:32:53
837
原创 深度强化学习(一)(基本概念)
是从当前时刻开始到本回合结束的所有奖励的总和, 所以回报也叫做累计奖励 (cumulative future reward)。强化学习的目标就是得到一个策略函数,在每个时刻根据观测到的状态做出决策。策略可以是确定性的,也可以是随机性的。可以把确定策略看做随机策略的一种特例,即概率全部集中在一个动作上。状态转移通常是随机的,我们用状态转移概率函数来描述随机性,在当前状态。(可以是确定的,也可以是随机的)(与当前状态,下一刻状态,当前动作都有关),或。的影响,只评价当前状态和动作的好坏,由此产生。
2024-03-10 21:39:58
799
1
原创 高维概率(一)(尾界与集中不等式)
高维概率(一)(尾界与集中不等式)在具有随机性变量的场景下,我们通常需要估计该随机变量可能的取值上界(或下界),并以此来设计相应的算法或解决方案。在概率论中,这样的估计通常被称为集中不等式(Concentration Inequality)。控制尾部概率P[x≥t]\Bbb P[x\geq t]P[x≥t]的一种方法是控制随机变量XXX的矩。获得对高阶矩的控制会导致尾概率的相应更尖锐的边界,从Markov’s inequality(只需要存在一阶矩)到Chernoff bound(需要存在矩生成函数)。
2024-02-05 22:15:57
1293
1
原创 807补充(十)(泛函极值篇)
807补充(十)(泛函极值篇)一.泛函具有某种共同性质的函数构成的集合称为类函数或函数类,记作 FFF 。例如, 在罗杰斯特回归中, 所有的模型都由参数W\boldsymbol WW控制,而参数W\boldsymbol WW就是函数集合所具有的共同性质(虽然每个具体模型的参数不一样)。常见的类函数有:在开区间 (x0,x1)\left(x_0, x_1\right)(x0,x1) 内连续的函数集, 称为在区间 (x0,x1)\left(x_0, x_1\right)(x0,x1) 上的连续函
2024-01-18 15:20:19
506
1
原创 807补充(九)(非光滑函数极值)
现在考虑非平滑凸目标函数的最小化minx∈Rnfx, 其中f为凸函数, 但是非平滑函数, 不可微分。非平滑目标函数的常见例子如∥x∥1∥x∥∞∥Ax−b∥1等。由于非平滑函数fx在x的梯度向量不存在, 所以基于梯度算法不适用。一个自然的问题是: 非平滑函数是否存在类似于梯度向量的某种 “广义梯度”?
2024-01-15 20:07:21
1139
原创 807补充(八)(多元函数极值篇)
可微多变量函数fx的极值点考虑以实向量xx1⋯xnT作变元的实值函数fxRn→R的无约束极小化问题x∈Sminfx1.1式中S∈Rn是n维向量空间Rn的一个子集合.定义: 给定一个点x∈Rn, 点x的一 (闭合) 邻域记作Bx;r, 是满足∥x−x∥2⩽r(其中r0) 的所有点x的集合, 即Bx;rx∣∥x−x∥2⩽r令cc1⋯cn。
2024-01-14 18:20:03
955
1
原创 807补充(七)(拉格朗日乘子篇)
⽬前为⽌,我们已经考虑了在形式为gx0的等式限制(equality constraint)下最⼤化函数的问题。我们现在考虑形式为gx≥0的不等式限制(inequality constraint)下最⼤化函数fx的问题,如图所示。根据受限制条件下的驻点是否位于区域gx0中, 有两种可能的解。如果驻点位于gx0的区域中, 我们说限制条件。如果驻点位于gx0的边界上,我们说。在第一种情况下, 函数gx不起作用, 函数在驻点处的条件只是∇fx0。
2024-01-13 21:42:00
358
1
原创 807补充(六)(拉格朗日乘子篇)
在上一篇中,我们用拉格朗日乘子法求得了以下优化问题的解maxmize tr(WT(Sw+Sb)W)s.t WTSwW=I\begin{aligned}&\text{maxmize} \ \ \ \ \text{tr}(\boldsymbol W^T(\boldsymbol S_w+\boldsymbol S_b)\boldsymbol W)\\&s.t \ \ \ \ \ \ \ \ \ \ \ \ \ \boldsymbol W^T\boldsymbol S_w
2024-01-10 18:04:34
912
1
原创 807补充(五)(拉格朗日乘子篇)
拉格朗日乘数法(Lagrange multiplier), 有时也被称为不确定乘数法(undetermined multiplier), 被用于寻找多元变量在一个或者多个限制条件下的驻点。考虑寻找函数 f(x1,x2)f\left(x_1, x_2\right)f(x1,x2) 的最大值, 其中 x1x_1x1 和 x2x_2x2 要满足一定的限制, 限制的形式为g(x1,x2)=0(1.1)g\left(x_1, x_2\right)=0\tag{1.1}g(x1,x2)=0(1.1)
2024-01-08 22:03:33
903
1
原创 807补充(四)(高斯积分篇)
可被视为是一种组织梯度向量的方法。在前三篇中,我们给出了梯度的定义与计算公式,借助梯度可以简单得出雅可比矩阵的定义。Dxfdef∇xfT易看出当雅可比矩阵为方阵时fx与x是同维度向量,若雅可比矩阵不为方阵,则从fx到x的映射是降维映射或升维映射。在微分几何中雅可比矩阵可以衡量两个函数之间的变换是否光滑。
2024-01-07 18:58:08
1028
1
原创 807补充(三)(矩阵微分篇)
在前两节中,标量函数对一维向量的导数是一个一维的向量,而标量函数对二维矩阵的导数是一个二维的向量,同理按此定义二维矩阵函数对二维矩阵的导数应该是一个四维的张量。但是按此定义在实际中难以操作,不符合工程中的需要,因此我们需要令一种更贴合实际的定义。是正定矩阵时,Hessian矩阵也正定,即这是一个凸函数,只有最小值没有最大值。,由矩阵克罗内克积的性质可知Hessian矩阵负定,即这是一个凹函数。在开始这一节之前,我们首先需要考虑矩阵函数对矩阵的导数。实际上拉伸了矩阵,使其变化为一维向量,再对其进行求导。
2024-01-02 12:10:33
379
原创 807补充(二)(矩阵微分篇)
807补充(二)注:在本文中不考虑复数矩阵的可能性,仅考虑实矩阵符号约定X,A,B\mathbf{X},\mathbf{A},\mathbf{B}X,A,B矩阵F(⋅)\mathbf{F(\cdot)}F(⋅)输出为矩阵的函数x,y,z\mathbf{x},\mathbf{y},\mathbf{z}x,y,z向量f(⋅),g(⋅)\mathbf{f(\cdot)},\mathbf{g(\cdot)}f(⋅),g(⋅)输出为向量的函数x,yx,yx,y标量f(⋅)
2024-01-01 00:08:43
988
原创 807补充(一)(矩阵微分篇)
注:在本文中不考虑复数矩阵的可能性,仅考虑实矩阵注:如无特殊说明,本文中的向量都是列向量。x=[x1,x2,⋯ ,xn]T\mathbf{x} = [x_1 ,x_2 , \cdots , x_n]^Tx=[x1,x2,⋯,xn]Ta=tr(a)tr(A)=tr(AT)tr(AB)=tr(BA)tr(A−B)=tr(A)−tr(B)tr(A+B)=tr(A)+tr(B)\begin{aligned}&a=\mathrm{tr}(a)\\&\mathrm{tr}(\mathbf{A})=\
2023-12-29 23:18:25
1366
1
原创 最速下降法(欧式空间)
给定一个函数fx,我们的目标是找到一个方向使得fxΔx最小,因我们关心的只是Δx的方向,对于它的模(只要足够小)我们并不关心,可得以下最优化问题。minmizestfxΔx∣∣Δx∣∣p≤climc→01-1由于约束是在欧式空间中进行的,所以又称欧式空间中的最速下降法。
2023-10-18 21:45:12
86
原创 统计学习理论——chapter 1:(风险)损失函数的泛函表示
20年代,Hadamard观察到在一些(很一般的)情况下,求解(线性)算子方程AfFf∈F的问题(寻找满足这一等式的函数f∈F)是不适定的:即使方程存在唯一解,如果方程右边有一个微小的变动(如用‖F−Fδ‖δ任意小的Fδ取代F),也会导致解有很大的变化(即可能导致‖f−fδ‖很大)。在这种情况下,如果方程右边的F是不准确的(如引入了δ水平的噪声),那么使泛函Rf∣∣Af−Fδ∣∣2最小化的函数fδ。
2023-09-03 17:08:52
135
原创 凸优化速成
判断一个函数是否是凸函数的方法 有很多种,可以通过定义、一阶导或者二阶导来判断。凸函数最好的性质是它只有一个极值点,局部极值就是全局极值。(3)
2023-07-03 13:03:39
1568
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人