强化学习
rewards:对每个行动设置奖励
discount factor:
γ
γ
γ
return:
R
1
+
γ
R
2
+
γ
2
R
3
+
.
.
.
R_1+γR_2+γ^2R_3+...
R1+γR2+γ2R3+...
policy策略:π
π
(
s
)
=
α
π(s)=α
π(s)=α 根据当前位置s,计算得到return的奖励最大的行动策略α
状态动作函数Q(s,α): 在当前位置s,进行一次α的行动,然后按照最优策略执行,得到的奖励
最优策略下的行动等于maxQ(s,α)的α
s:当前位置
α:当前行动
s’:下一步的位置
α’:下一步的行动
贝尔曼方程: Q(s,α)=R(s)+γ maxQ(s’,α’)
随机强化学习:
在行动过程中可能出现错误,即行动没有跟着最优策略执行
因此在随机强化学习中,目标不是奖励最大化,而是期望(平均)奖励最大化
Q(s,α)=R(s)+γ E(maxQ(s’,α’))
神经网络训练强化模型:
x=(s,a)
y=R(s)+γ maxQ(s’,α’)
根据输入的(s,a)随机出可能的(s,a,R(s),s’),记录下10000组数据
根据 x=(s,a) , y=R(s)+γ maxQ(s’,α’) 训练模型,其中y中的maxQ(s’,α’),即为10000组数据中Q最大的一项
ɛ-greedy算法(ɛ=0.95):
0.95的概率,算法选择 maxQ输出
0.05的概率,算法选择随机Q输出
探索其他可能性