《DRL》P0-数学符号(基础符号、强化学习符号、强化学习术语)

数学符号

基础符号

x \text{x} x scalar 标量

x \boldsymbol{x} x vector 向量

X \mathbf{X} X matrix 矩阵

R \mathbb{R} R the set of real numbers 实数集

d y d x \frac{\mathrm{d}y}{\mathrm{d}x} dxdy derivative of y with respect to x,标量的倒数

∂ y ∂ x \frac{\partial y}{\partial x} xy partial derivative of y with respect to x,标量的偏导数

∇ x y \nabla_{\boldsymbol{x}}y xy gradient of y with respect to x,向量的梯度

∇ X y \nabla_{\boldsymbol{X}}y Xy matrix derivatives of y with respect to X,矩阵的导数

P ( X ) P(X) P(X) a probability distribution over a discrete variable,离散变量的概率分布

p ( X ) p(X) p(X) a probability distribution over a continuous variable, or over a variable whose type has not been specified,连续变量(或者未定义是连续或离散的变量)的概率分布

X ∼ p X\sim p Xp the random variable X has distribution,随机变量 X X X满足概率分布 p p p

E [ X ] \mathbb{E}[X] E[X] expectation of a random variable,随机变量的期望

V a r [ X ] \mathrm{Var}[X] Var[X] variance of a random variable,随机变量的方差

C o r ( X , Y ) \mathrm{Cor}(X,Y) Cor(X,Y) covariance of two random variables,两个随机变量的协方差

D K L ( P ∥ Q ) D_{\mathrm{KL}}(P\|Q) DKL(PQ) Kullback-Leibler divergence of P and Q,两个概率分布的 KL散度

N ( x ; μ , Σ ) \mathcal{N}(\boldsymbol{x};\boldsymbol{\mu},\boldsymbol{\Sigma}) N(x;μ,Σ) Gaussian distribution over x with mean µ and covariance Σ,平均值为 µ 且协方差 为Σ的多元高斯分布

强化学习符号

s , s ′ s,s^{\prime} s,s state 状态

a a a action 动作

r r r reward 奖励

R R R reward function 奖励函数

S \mathcal{S} S set of all non-terminal states 非终结状态

S + \mathcal{S}^{+} S+ set of all states, including the terminal state,全部状态,包括终结状态

A \mathcal{A} A set of actions,动作集合

R \mathcal{R} R set of all possible rewards,奖励集合

P \boldsymbol{P} P transition matrix,转移矩阵

t t t discrete time step,离散时间步

T T T final time step of an episode,回合内最终时间步

S t S_{t} St state at time t,时间 t 的状态

A t A_t At action at time t,时间 t 的动作

R t R_t Rt reward at time t, typically due, stochastically, to A t A_t At and S t S_{t} St,时间 t t t 的奖励,通常为随机量,且由 A t A_t At S t S_{t} St决定

G t G_t Gt return following time t,回报

G t ( n ) G_t^{(n)} Gt(n) n-step return following time t,n 步回报

π \pi π policy, decision-making rule,策略

π ( s ) \pi(s) π(s) action taken in state s under deterministic policy π,根据确定性策略 π,状态 s 时 的动作

π ( a ∣ s ) \pi(a|s) π(as) probability of taking action a in state s under stochastic policy π,根据随机性策略 π,状态s时执行动作a的概率

p ( s ′ , r ∣ s , a ) p(s',r|s,a) p(s,rs,a) probability of transitioning to state s′, with reward r, from state s and action a,根据 状态s和动作a,使得状态转移成s′且获得奖励r的概率

p ( s ′ ∣ s , a ) p(s'|s,a) p(ss,a) probability of transitioning to state s′, from state s taking action a,根据状态 s 和动作a,使得状态转移成s′的概率

v π ( s ) v_{\pi}(s) vπ(s) value of state s under policy π (expected return),根据策略 π,状态 s 的价值(回 报期望)

v ∗ ( s ) v_{*}(s) v(s) value of state s under the optimal policy,根据最优策略,状态 s 的价值

q π ( s , a ) q_{\pi}(s,a) qπ(s,a) value of taking action a in state s under policy π,根据策略 π,在状态 s 时执行动 作a的价值

q ∗ ( s , a ) q_{*}(s,a) q(s,a) value of taking action a in state s under the optimal policy,根据最优策略,在状态 s 时执行动作a的价值

V , V t V,V_{t} V,Vt estimates of state-value function v π ( s ) v_{\pi}(s) vπ(s) or v ∗ ( s ) v_{*}(s) v(s),状态价值函数的估计

Q , Q t Q,Q_{t} Q,Qt estimates of action-value function q π ( s , a ) q_{\pi}(s,a) qπ(s,a) or q ∗ ( s , a ) q_{*}(s,a) q(s,a),动作价值函数的估计

τ τ τ trajectory, which is a sequence of states, actions and rewards , τ τ τ =(S0,A0,R0,S1,A1,R1,···),状态、动作、奖励的轨迹

γ \gamma γ reward discount factor, γ \gamma γ ∈ [0,1],奖励折扣因子

ϵ \epsilon ϵ probability of taking a random action in ϵ \epsilon ϵ-greedy policy,根据 ϵ \epsilon ϵ-贪婪策略,执行随机动作的概率

α , β \alpha,\beta α,β step-size parameters,步长

λ \text{λ} λ decay-rate parameter for eligibility traces,资格迹的衰减速率

强化学习中术语总结

R R R 是奖励函数, R t = R ( S t ) R_t =R(S_t) Rt=R(St)MRP中状态 S t S_t St的奖励, R t = R ( S t , A t ) R_t =R(S_t,A_t) Rt=R(St,At)MDP中的奖励, S t ∈ S S_t ∈ S StS

R ( τ )  是轨迹  τ  的  γ -折扣化回报, R ( τ ) = ∑ t = 0 ∞ γ t R t R(\tau)\text{ 是轨迹 }\tau\text{ 的 }\gamma\text{-折扣化回报,}R(\tau)=\sum_{t=0}^\infty\gamma^tR_t R(τ) 是轨迹 τ  γ-折扣化回报,R(τ)=t=0γtRt

p ( τ ) p(\tau) p(τ)是轨迹的概率:

  • p ( τ ) = ρ 0 ( S 0 ) ∏ t = 0 T − 1 p ( S t + 1 ∣ S t )  对于 MP 和 MRP, ρ 0 ( S 0 )  是起始状态分布(Start-State Distribution)。 \begin{aligned}&p(\tau)=\rho_0(S_0)\prod_{t=0}^{T-1}p(S_{t+1}|S_t)\text{ 对于 MP 和 MRP,}\rho_0(S_0)\text{ 是起始状态分布(Start-State}\\&\text{Distribution)。}\end{aligned} p(τ)=ρ0(S0)t=0T1p(St+1St) 对于 MP  MRP,ρ0(S0) 是起始状态分布(Start-StateDistribution)
  • p ( τ ∣ π ) = ρ 0 ( S 0 ) ∏ t = 0 T − 1 p ( S t + 1 ∣ S t , A t ) π ( A t ∣ S t )  对于 MDP, ρ 0 ( S 0 )  是起始状态分布 p(\tau|\pi)=\rho_0(S_0)\prod_{t=0}^{T-1}p(S_{t+1}|S_t,A_t)\pi(A_t|S_t)\text{ 对于 MDP,}\rho_0(S_0)\text{ 是起始状态分布} p(τπ)=ρ0(S0)t=0T1p(St+1St,At)π(AtSt) 对于 MDP,ρ0(S0) 是起始状态分布

J ( π )  是策略  π  的期望回报, J ( π ) = ∫ τ p ( τ ∣ π ) R ( τ ) = E τ ∼ π [ R ( τ ) ] J(\pi)\text{ 是策略 }\pi\text{ 的期望回报,}J(\pi)=\int_\tau p(\tau|\pi)R(\tau)=\mathbb{E}_{\tau\sim\pi}[R(\tau)] J(π) 是策略 π 的期望回报,J(π)=τp(τπ)R(τ)=Eτπ[R(τ)]

π ∗  是最优策略: π ∗ = arg ⁡ max ⁡ π J ( π ) \pi^*\text{ 是最优策略:}\pi^*=\arg\max_\pi J(\pi) π 是最优策略:π=argπmaxJ(π)

v π ( s )  是状态  s  在策略  π  下的价值(期望回报) v_\pi(s)\text{ 是状态 }s\text{ 在策略 }\pi\text{ 下的价值(期望回报)} vπ(s) 是状态 s 在策略 π 下的价值(期望回报)

v ∗ ( s )  是状态  s  在最优策略下的价值(期望回报) v_*(s)\text{ 是状态 }s\text{ 在最优策略}\text{下的价值(期望回报)} v(s) 是状态 s 在最优策略下的价值(期望回报)

q π ( s , a )  是状态  s  在策略  π  下采取动作 s 的价值(期望回报) q_\pi(s,a)\text{ 是状态 }s\text{ 在策略 }\pi\text{ 下采取动作}s\text{的价值(期望回报)} qπ(s,a) 是状态 s 在策略 π 下采取动作s的价值(期望回报)

q ∗ ( s , a )  是状态  s  在最优策略下采取动作 s 的价值(期望回报) q_*(s,a)\text{ 是状态 }s\text{ 在最优策略}\text{下采取动作}s\text{的价值(期望回报)} q(s,a) 是状态 s 在最优策略下采取动作s的价值(期望回报)

V ( s )  是对 MRP 中从状态  s  开始的状态价值的估计 V(s)\text{ 是对 MRP 中从状态 }s\text{ 开始的状态价值的估计} V(s) 是对 MRP 中从状态 s 开始的状态价值的估计

V π ( s )  是对 MDP 中在线状态价值函数的估计,给定策略  π ,有期望回报: V^\pi(s)\text{ 是对 MDP 中在线状态价值函数的估计,给定策略 }\pi\text{,有期望回报:} Vπ(s) 是对 MDP 中在线状态价值函数的估计,给定策略 π,有期望回报:

  • V π ( s ) ≈ v π ( s ) = E τ ∼ π [ R ( τ ) ∣ S 0 = s ] V^\pi(s)\approx v_\pi(s)=\mathbb{E}_{\tau\sim\pi}[R(\tau)|S_0=s] Vπ(s)vπ(s)=Eτπ[R(τ)S0=s]

Q π ( s , a )  是对 MDP 下在线动作价值函数的估计,给定策略  π ,有期望回报: Q^\pi(s,a)\text{ 是对 MDP 下在线动作价值函数的估计,给定策略 }\pi\text{,有期望回报:} Qπ(s,a) 是对 MDP 下在线动作价值函数的估计,给定策略 π,有期望回报:

  • Q π ( s , a ) ≈ q π ( s , a ) = E τ ∼ π [ R ( τ ) ∣ S 0 = s , A 0 = a ] \begin{aligned}Q^\pi(s,a)\approx q_\pi(s,a)=\mathbb{E}_{\tau\thicksim\pi}[R(\tau)|S_0=s,A_0=a]\end{aligned} Qπ(s,a)qπ(s,a)=Eτπ[R(τ)S0=s,A0=a]

V ∗ ( s )  是对 MDP 下最优动作价值函数的估计,根据最优策略,有期望回报: V^*(s)\text{ 是对 MDP 下最优动作价值函数的估计,根据最优策略,有期望回报:} V(s) 是对 MDP 下最优动作价值函数的估计,根据最优策略,有期望回报:

  • V ∗ ( s ) ≈ v ∗ ( s ) = max ⁡ π E τ ∼ π [ R ( τ ) ∣ S 0 = s ] \begin{aligned}V^*(s)\approx v_*(s)=\max_\pi\mathbb{E}_{\tau\sim\pi}[R(\tau)|S_0=s]\end{aligned} V(s)v(s)=πmaxEτπ[R(τ)S0=s]

Q ∗ ( s , a )  是对 MDP 下最优动作价值函数的估计,根据最优策略,有期望回报: Q^*(s,a)\text{ 是对 MDP 下最优动作价值函数的估计,根据最优策略,有期望回报:} Q(s,a) 是对 MDP 下最优动作价值函数的估计,根据最优策略,有期望回报:

  • Q ∗ ( s , a ) ≈ q ∗ ( s , a ) = max ⁡ π E τ ∼ π [ R ( τ ) ∣ S 0 = s , A 0 = a ] \begin{aligned}Q^*(s,a)\approx q_*(s,a)=\max_\pi\mathbb{E}_{\tau\thicksim\pi}[R(\tau)|S_0=s,A_0=a]\end{aligned} Q(s,a)q(s,a)=πmaxEτπ[R(τ)S0=s,A0=a]

A π ( s , a )  是对状态  s  和动作  a  的优势估计函数: A^\pi(s,a)\text{ 是对状态 }s\text{ 和动作 }a\text{ 的优势估计函数:} Aπ(s,a) 是对状态 s 和动作 a 的优势估计函数:

  • A π ( s , a ) = Q π ( s , a ) − V π ( s ) \begin{aligned}A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)\end{aligned} Aπ(s,a)=Qπ(s,a)Vπ(s)

在线状态价值函数  υ π ( s )  和在线动作价值函数  q π ( s , a )  的关系: \text{在线状态价值函数 }\upsilon_{\pi}(s)\text{ 和在线动作价值函数 }q_{\pi}(s,a)\text{ 的关系:} 在线状态价值函数 υπ(s) 和在线动作价值函数 qπ(s,a) 的关系:

  • v π ( s ) = E a ∼ π [ q π ( s , a ) ] v_\pi(s)=\mathbb{E}_{a\sim\pi}[q_\pi(s,a)] vπ(s)=Eaπ[qπ(s,a)]

最优状态价值函数  v ∗ ( s )  和最优动作价值函数  q ∗ ( s , a )  的关系: \text{最优状态价值函数 }v_*(s)\text{ 和最优动作价值函数 }q_*(s,a)\text{ 的关系:} 最优状态价值函数 v(s) 和最优动作价值函数 q(s,a) 的关系:

  • v ∗ ( s ) = max ⁡ a q ∗ ( s , a ) v_*(s)=\max_aq_*(s,a) v(s)=amaxq(s,a)

a ∗ ( s )  是状态  s  下根据最优动作价值函数得到的最优动作 : a_*(s)\text{ 是状态 }s\text{ 下根据最优动作价值函数得到的最优动作}{:} a(s) 是状态 s 下根据最优动作价值函数得到的最优动作:

  • a ∗ ( s ) = arg ⁡ max ⁡ a q ∗ ( s , a ) a_*(s)=\arg\max_aq_*(s,a) a(s)=argamaxq(s,a)

对于在线状态价值函数的贝尔曼方程 : 对于在线状态价值函数的贝尔曼方程: 对于在线状态价值函数的贝尔曼方程:

  • v π ( s ) = E a ∼ π ( ⋅ ∣ s ) , s ′ ∼ p ( ⋅ ∣ s , a ) [ R ( s , a ) + γ v π ( s ′ ) ] v_\pi(s)=\mathbb{E}_{a\sim\pi(\cdot|s),s^{\prime}\sim p(\cdot|s,a)}[R(s,a)+\gamma v_\pi(s^{\prime})] vπ(s)=Eaπ(s),sp(s,a)[R(s,a)+γvπ(s)]

对于在线动作价值函数的贝尔曼方程 : 对于在线动作价值函数的贝尔曼方程: 对于在线动作价值函数的贝尔曼方程:

  • q π ( s , a ) = E s ′ ∼ p ( ⋅ ∣ s , a ) [ R ( s , a ) + γ E a ′ ∼ π ( ⋅ ∣ s ′ ) [ q π ( s ′ , a ′ ) ] ] \begin{aligned}q_\pi(s,a)=\mathbb{E}_{s'\thicksim p(\cdot|s,a)}[R(s,a)+\gamma\mathbb{E}_{a'\thicksim\pi(\cdot|s')}[q_\pi(s',a')]]\end{aligned} qπ(s,a)=Esp(s,a)[R(s,a)+γEaπ(s)[qπ(s,a)]]

对于最优状态价值函数的贝尔曼方程 : 对于最优状态价值函数的贝尔曼方程: 对于最优状态价值函数的贝尔曼方程:

  • v ∗ ( s ) = max ⁡ a E s ′ ∼ p ( ⋅ ∣ s , a ) [ R ( s , a ) + γ v ∗ ( s ′ ) ] v_*(s)=\max_a\mathbb{E}_{s'\thicksim p(\cdot|s,a)}[R(s,a)+\gamma v_*(s')] v(s)=amaxEsp(s,a)[R(s,a)+γv(s)]

对于最优动作价值函数的贝尔曼方程 : 对于最优动作价值函数的贝尔曼方程: 对于最优动作价值函数的贝尔曼方程:

  • q ∗ ( s , a ) = E s ′ ∼ p ( ⋅ ∣ s , a ) [ R ( s , a ) + γ max ⁡ a ′ q ∗ ( s ′ , a ′ ) ] \begin{aligned}q_*(s,a)=\mathbb{E}_{s'\sim p(\cdot|s,a)}[R(s,a)+\gamma\max_{a'}q_*(s',a')]\end{aligned} q(s,a)=Esp(s,a)[R(s,a)+γamaxq(s,a)]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值