总结:当智能体从一个状态S,选择动作A,会进入另外一个状态S';同时,也会给智能体奖励R。 奖励既有正,也有负。正代表我们鼓励智能体在这个状态下继续这么做;负得话代表我们并不希望智能体这么做。 在强化学习中,我们会用奖励R作为智能体学习的引导,期望智能体获得尽可能多的奖励。
1 强化学习的任务
1.1 是什么:智能体独立自主地完成某种任务
1.2 从哪里学:环境
1.3 如何学:把问题抽象为模型
2 马可洛夫链(一种模型)
2.1 三元素:
- S(state)状态:当前环境的部分或者全部特征
**s_dim状态空间:智能体能够观察到的特征数量
- A(action)行动:智能体做出的具体行为
**a_dim动作空间:智能体能够做出的动作数量
- R(reward)奖励/反馈:奖励可以是正数,表示鼓励当前的行为;如果是负数负数,表示惩罚这种行为。
2.2 强化学习的一般步骤
- 智能体在环境中,观察到状态(S);
- 状态(S)被输入到智能体,智能体经过计算,选择动作(A);
- 动作(A)使智能体进入另外一个状态(S),并返回奖励(R)给智能体。
- 智能体根据返回,调整自己的策略。 重复以上步骤,一步一步创造马尔科夫链。
2.3 两种不确定性
- 不同动作之间的选择:智能体的策略Pi,eg 智能体给出卸载策略
- 环境的随机性,eg 用户任务随机生成,遮挡发生变化
eg 初始s——>a——>step()——>reset()——>s_
3 马尔科夫决策过程(Markov Decision Process,简称为MDP)
3.1 特征
具有延迟回报性质,当前状态下的最优动作不一定具有长远利益
相反,贪心是一种只考虑眼前情况的策略
3.2 MDP基本的解法
- 动态规划法(dynamic programming methods)DP
- 蒙特卡罗方法(Monte Carlo methods)
- 时间差分法(temporal difference)
TD综合了MC和DP的优点,因此这也是我们在RL中常用的方法。