强化学习001_基础揭秘

一、强化学习

1、策略函数与策略迭代

2、无模型学习

3、记忆回放

4、Bellman方程

5、策略梯度算法

6、值函数与值迭代

7、动态规划

8、探索与利用

二、Q-Learning and Sarsa

三、Deep Q Network

传统表格,如果表格状态浩如繁星……将状态和动作当成神经网络的输入值

 

四、策略梯度 Policy Gradients

神经网络输出动作,动作发生的概率与神经网络进行反向传播,通过奖惩来限制或者扩大动作发生的概率。

五、Actor Critic 演员评论家

对于连续的动作值进行预测

对于连续的动作值进行预测,更加有效的学习

六、A3C Asynchronous Advantage Actor Critic

平行运行系统,并行运算计算结构

 

未完待续……

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值