机器学习—强化学习

强化学习

rewards:对每个行动设置奖励
discount factor: γ γ γ
return: R 1 + γ R 2 + γ 2 R 3 + . . . R_1+γR_2+γ^2R_3+... R1+γR2+γ2R3+...
policy策略:π π ( s ) = α π(s)=α π(s)=α 根据当前位置s,计算得到return的奖励最大的行动策略α
状态动作函数Q(s,α): 在当前位置s,进行一次α的行动,然后按照最优策略执行,得到的奖励
最优策略下的行动等于maxQ(s,α)的α

s:当前位置
α:当前行动
s’:下一步的位置
α’:下一步的行动
贝尔曼方程: Q(s,α)=R(s)+γ maxQ(s’,α’)

随机强化学习:
在行动过程中可能出现错误,即行动没有跟着最优策略执行
因此在随机强化学习中,目标不是奖励最大化,而是期望(平均)奖励最大化
Q(s,α)=R(s)+γ E(maxQ(s’,α’))

神经网络训练强化模型:
x=(s,a)
y=R(s)+γ maxQ(s’,α’)

根据输入的(s,a)随机出可能的(s,a,R(s),s’),记录下10000组数据
根据 x=(s,a) , y=R(s)+γ maxQ(s’,α’) 训练模型,其中y中的maxQ(s’,α’),即为10000组数据中Q最大的一项

ɛ-greedy算法(ɛ=0.95):
0.95的概率,算法选择 maxQ输出
0.05的概率,算法选择随机Q输出
探索其他可能性

  • 29
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值