一、强化学习
1、策略函数与策略迭代
2、无模型学习
3、记忆回放
4、Bellman方程
5、策略梯度算法
6、值函数与值迭代
7、动态规划
8、探索与利用
二、Q-Learning and Sarsa
三、Deep Q Network
传统表格,如果表格状态浩如繁星……将状态和动作当成神经网络的输入值
四、策略梯度 Policy Gradients
神经网络输出动作,动作发生的概率与神经网络进行反向传播,通过奖惩来限制或者扩大动作发生的概率。
五、Actor Critic 演员评论家
对于连续的动作值进行预测
对于连续的动作值进行预测,更加有效的学习
六、A3C Asynchronous Advantage Actor Critic
平行运行系统,并行运算计算结构
未完待续……