![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 50
尚优未来
一点一滴,一花一叶,喜欢文学的程序员
展开
-
强化学习002_隐马尔科夫模型HMM
HMM是一个关于时序的概率模型,描述了一个由隐藏的马尔科夫链随机生成的不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。主要由五部分组成:状态序列、状态转移矩阵、观测序列、观测概率分布、初始的状态分布通过现象看本质的学习模型:隐马尔科夫模型我们输入的拼音字母就是观测序列,而这个观测到的表象的实质应该是我们想要的拼音字母或者是句子。隐马尔科夫模型就是通过输...原创 2018-09-17 11:10:38 · 1284 阅读 · 0 评论 -
强化学习001_基础揭秘
一、强化学习1、策略函数与策略迭代2、无模型学习3、记忆回放4、Bellman方程5、策略梯度算法6、值函数与值迭代7、动态规划8、探索与利用二、Q-Learning and Sarsa三、Deep Q Network传统表格,如果表格状态浩如繁星……将状态和动作当成神经网络的输入值 四、策略梯度 Policy Gradients...原创 2018-09-20 10:06:14 · 170 阅读 · 0 评论