强化学习-An introduction之多臂老虎机 (k-bandits)

最新推荐文章于 2025-03-22 13:40:28 发布

MrTriste

最新推荐文章于 2025-03-22 13:40:28 发布

阅读量1.3k

点赞数 1

分类专栏：强化学习文章标签：强化学习多臂老虎机 k bandits

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wjc1182511338/article/details/80629271

版权

Chapter 2 多臂老虎机

k臂老虎机问题（2.1节）：

You are faced repeatedly with a choice among k different options, or actions. After each choice you receive a numerical reward chosen from a stationary probability distribution that depends on the action you selected. Your objective is to maximize the expected total reward over some time period.

解决办法（2.2、2.7、2.8、2.9节）

Action-value Methods（e-greedy）

假设我们大概知道每个action的奖励的分布，我们有两种办法，一个是每次选择奖励最多的action及greedy method，另一种是大部分选择奖励最多的小部分去探索别的action的分布即 $\epsilon$ method。

一种简单的衡量每个行动的奖励的方法是，对这个action的奖励算平均值，一般可以暴力算，如下：

一种增量实现的方式（2.4节）只用到上一时刻的平均奖励和这一时刻的奖励：

（2.3节）对greedy-method和两个 ϵ

最低0.47元/天解锁文章

博客等级

码龄10年

35
原创

104
点赞

240
收藏

57
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

LSTM详解反向传播公式推导
不牌不改: 图全挂了。。。
循环神经网络RNN详解反向传播公式推导+代码（十分详细）
IT猿手: RNN详推可以参考https://blog.csdn.net/weixin_46204734/article/details/121531351?spm=1001.2014.3001.5501
TensorFlow实战：LSTM的结构与cell中的参数
糯米团子有点萌: [code=python] if time_step > 0: tf.get_variable_scope().reuse_variables() [/code]请问这句话有什么作用呀？
LSTM详解反向传播公式推导
学机器学习的科比: 而楼下说的为什么不是连乘，如果是连乘的话，则所有权重不共享了，说白了就是类似于BP神经网络之间的权重，BP的反向传播为什么是连乘，因为第一层W1和第二层W2有直接关系，并且不共享，两层的W完全不相同，而LSTM中，每个CELL中的权重和另外一个CELL中的权重没有直接关系，大家的权重都是一样的，并没有像BP神经网络那样，也就是说，LSTM中的某一个CELL中的权重不是由其他CELL中的权重通过操作得来的
LSTM详解反向传播公式推导
学机器学习的科比: 为什么是加等号呢，用一句话解释就是循环神经网络的权重是共享的，也就是一摸一样的，也就是说在反向传播的时候，L(损失函数)对任何一个权重求导的时候(这里假设是对遗忘门的W)对应的是共有时间步这么多的权重的边(比如时间步是10，则L对遗忘门的W求导的时候，会对应着10个边，因为每一个边都是遗忘门的W)，为了避免产生歧义，分别对每个时间步的W求导然后相加，就可以啦

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。