PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍
- 1、视频 + 学堂在线 习题
- 2、相应章节 过电子书 复习
- 3、总体 MOOC 过一遍
学堂在线 课程页面链接
中国大学MOOC 课程页面链接
B 站 视频链接
PPT和书籍下载网址: 【github链接】
onedrive链接:
【书】
【课程PPT】
通过 例子 介绍 强化学习 的基本概念
基于 马尔可夫决策过程 介绍
状态 State:
s
1
,
s
2
,
.
.
.
,
s
9
s_1, s_2, ..., s_9
s1,s2,...,s9
状态空间 State space :
S
=
{
s
i
}
i
=
1
9
\mathcal{S} = \{s_i\}_{i = 1}^9
S={si}i=19
行动 Action:
a
1
,
.
.
.
,
a
5
a_1,..., a_5
a1,...,a5
行动空间 Action space:
A
(
s
i
)
=
{
a
i
}
i
=
1
5
\mathcal{A}(s_i) = \{a_i\}_{i = 1}^5
A(si)={ai}i=15
状态转移 state transition: s 1 → a 2 s 2 s_1\xrightarrow{a_2} s_2 s1a2s2
只能表示确定的情况,无法表示 状态转移多种可能的情况
状态转移概率 State transition probability:
- 既可描述 确定性情况,也可描述具有 随机性的情况。
p ( s 2 ∣ s 1 , a 2 ) = 1 p(s_2|s_1,a_2) = 1 p(s2∣s1,a2)=1
p ( s i ∣ s 1 , a 2 ) = 0 , ∀ i ≠ 2 p(s_i|s_1, a_2)=0, \forall ~ i\neq 2 p(si∣s1,a2)=0,∀ i=2
策略 Policy
策略 告诉 agent 在每个状态下 要采取 哪些行动。
三种表示方法:
数学表示:
π
\pi
π: 条件概率,任何一个状态下, 任何一个 action 的概率
——————
奖励 Reward: 实数、标量。人机交互的手段
r ( s , a ) r(s, a) r(s,a)
一般
正: 鼓励
负: 惩罚
即时奖励 大 并不意味着 能获得 最大的总体奖励。
轨迹 Trajectory: 状态-动作-奖励 链
回报 return:沿轨迹 获得的所有奖励的总和
return 越大, 策略越好。
Discounted return 折扣回报
折扣率 discount rate γ \gamma γ
每多进行 一个 动作, 前面的 参数多乘上一个
γ
\gamma
γ
作用:
1、和 不再发散。
2、平衡 更近未来 得到的 reward 和 更远未来 得到的 reward。
减小
γ
\gamma
γ, 近视,更加注重最近的 reward。
增大
γ
\gamma
γ, 远视,更加注重长远的 reward。
回合 Episode: 试了一次。有限步
episodic tasks: 最终停在某处的 任务
continuing tasks:agent 和 环境的交互会永远持续
将 episodic tasks 转成 continuing tasks, 统一处理
方法一: 将 目标状态 视为 特殊的 吸收状态 (absorbing state)。一旦 agent 到达 一个 吸收状态, 就不会再离开。之后的奖励 都为 0.
方法二: 将目标状态 视为 带策略的普通状态。耗费更多的搜索,更一般化。【本课程 选择这种】
- 通过 折扣率 计算折扣回报 避免 发散。
马尔科夫决策过程 (Markov decision process,MDP)
MDP 的关键要素:
集合:
状态集合 State
S
\mathcal{S}
S
动作集合 Action
A
(
s
)
\mathcal{A(s)}
A(s), 其中
s
∈
S
s \in \mathcal{S}
s∈S
奖励集合 Reward
R
(
s
,
a
)
\mathcal{R(s, a)}
R(s,a)
概率分布:
状态转移概率 State transition probability
- 状态 s \mathcal{s} s ,进行动作 a \mathcal{a} a,转移到 状态 s ′ \mathcal{s}^{\prime} s′ 的概率为 p ( s ′ ∣ ( s , a ) ) p(\mathcal{s}^{\prime}|(s, a)) p(s′∣(s,a))
奖励概率 Reward probability
- 状态 s \mathcal{s} s ,进行动作 a \mathcal{a} a,获得奖励 r \mathcal{r} r 的概率为 p ( r ∣ ( s , a ) ) p(r|(s, a)) p(r∣(s,a))
策略 Policy
: 状态为
s
\mathcal{s}
s, 进行动作
a
\mathcal{a}
a 的概率为
π
(
a
∣
s
)
\pi(a|s)
π(a∣s)
Markov 特性: 无记忆性,下一刻 t + 1 t + 1 t+1 的 状态 和 奖励 仅和当前时刻 t t t 的 状态 有关。
p
(
s
t
+
1
∣
a
t
+
1
,
s
t
,
.
.
.
,
a
1
,
s
0
)
=
p
(
s
t
+
1
∣
a
t
+
1
,
s
t
)
p(s_{t + 1}|a_{t + 1}, s_t,...,a_1,s_0)=p(s_{t + 1}|a_{t + 1}, s_t)
p(st+1∣at+1,st,...,a1,s0)=p(st+1∣at+1,st)
p
(
r
t
+
1
∣
a
t
+
1
,
s
t
,
.
.
.
,
a
1
,
s
0
)
=
p
(
r
t
+
1
∣
a
t
+
1
,
s
t
)
p(r_{t + 1}|a_{t + 1}, s_t,...,a_1,s_0)=p(r_{t + 1}|a_{t + 1}, s_t)
p(rt+1∣at+1,st,...,a1,s0)=p(rt+1∣at+1,st)
马尔科夫决策过程 + 确定的策略 ——> 马尔科夫过程
回报 和 下一状态
s
′
s^\prime
s′ 有关。
p
(
r
∣
s
,
a
)
=
∑
s
′
p
(
r
∣
s
,
a
,
s
′
)
p
(
s
′
∣
s
,
a
)
p(r|s, a)=\sum\limits_{s^\prime}p(r|s,a,s^{\prime})p(s^\prime|s,a)
p(r∣s,a)=s′∑p(r∣s,a,s′)p(s′∣s,a)
习题笔记:
-
每一个状态最优的动作是能得到 长期回报 均值最大 的那个,而不是得到立即奖励最大的那个。
-
MDP是和策略有关系的,其中 decision 对应的就是 policy。