自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

xudong0612的专栏

记录学习点点滴滴，追寻推荐系统、商务智能～

07月 05月

翻译强化学习（reinforcement learning）教程

前一阵研究强化学习，发现中文的资料非常少，实例就更少。于是翻译一篇q学习算法的教程，供需要的人学习。原文链接：http://mnemstudio.org/path-finding-q-learning-tutorial.htm 正文： Q学习算法是一种用来解决马尔可夫决策过程中最优化问题的方法。Q学习算法最大的特点是它具有选择瞬时奖励和延迟奖励的能力。在每一步中，agent通过观察状态

2013-07-11 22:15:10 34543 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

xudong0612 CSDN认证博客专家 CSDN认证企业博客

码龄13年

IP 属地：上海市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

12: 原创

30万+: 周排名

179万+: 总排名

12万+: 访问

: 等级

1091: 积分

72: 粉丝

15: 获赞

25: 评论

35: 收藏

私信

关注

热门文章

分类专栏

最新评论

强化学习（reinforcement learning）教程
科幻宇宙: 原文有错误，应该是 Q(3， 5) = R(3， 5) + 0。8 * Max[Q(3， 2)， Q(3， 5)] = 0 + 0。8 * Max(0， 100) = 80 很明显的错误
强化学习（reinforcement learning）教程
小小菜鸟一只: 下一个episode，我们随机选择一个初始状态。这一次我们选择状态3 观察矩阵R的第4行，它有三个行为，到达状态1，2或4。通过随机选择，我们到达状态1 现在假设到达状态1，观察矩阵R的第二行，它有两个行为，到达状态3或5，接下来计算Q值 Q(state， action) = R(state， action) + Gamma * Max[Q(next state， all actions)] Q(1， 5) = R(1， 5) + 0。8 * Max[Q(1， 2)， Q(1， 5)] = 0 + 0。8 * Max(0， 100) = 80 我们用更新过的矩阵Q进行计算。Q(1，3)=0Q(1，5)=100。Q(3，1)的结果=80因为奖励为0。能不能解释一下这里面R(1,5)和Q（1,5）感觉这边数值是错的
强化学习（reinforcement learning）教程
vector1127: 不过还是多谢楼主提供资料了。多谢了。
强化学习（reinforcement learning）教程
vector1127 回复 stone1man: 我感觉不是“有点错误”，是有挺多的。而且楼主貌似都没发现。
强化学习（reinforcement learning）教程
stone1man: 原文是不是有点错误呢？

最新文章

提示

确定要删除当前文章？

取消删除