white_gl-CSDN博客

转载多臂强盗（multi-armed bandit）问题探究-续2

转自 http://mlyixi.byethost32.com/blog/?p=74710Dec 2014多臂赌博机系列(3)by mlyixi ⋅ Leave a Comment在上两节我们讨论的UCB系列算法面对的情况是静态的,即各臂的分布参数不会改变,于是我们就"乐观地面对不确定性"--根据采样平均值尽快

2017-03-22 16:51:25 2017

转载多臂强盗（multi-armed bandit）问题探究-续

转自 http://mlyixi.byethost32.com/blog/?cat=3510Dec 2014多臂赌博机系列(2)by mlyixi ⋅ Leave a Comment这一节我们来了解下多臂赌博机问题的提出和理论基础,最后讨论下UCB系列策略.当然,这里的多臂赌博机问题是随机式的. 随机式多臂赌博

2017-03-22 16:49:15 2566 1

转载多臂强盗（multi-armed bandit）问题探究

转自：http://mlyixi.byethost32.com/blog/?p=15504Oct 2014多臂赌博机系列(1)by mlyixi ⋅ Leave a Comment假想一个风投他想着他的收益最大化,这时他总会面临一个两难: 何时去投资那些已经成功的公司,何时去投资那些还没有成功但具有很大潜力的公

2017-03-22 16:35:31 10204

转载 Tensorboard初步

转自https://my.oschina.net/u/2276931/blog/828098摘要: 基于mnist经典算例，仍采用两层神经网络+softmax追逐交叉熵最小，引入dropout消除overfitting。神经网络的调试是一门较深学问，采用tensorflow自带的tensorboard可以很好的辅助训练网络和调试。github代码不做改动，做一次搬运工。

2017-03-09 09:59:34 850

转载 python实现的基于蒙特卡洛树搜索(MCTS)与UCB的五子棋游戏

转载自http://www.cnblogs.com/xmwd/archive/2017/02/19/python_game_based_on_MCTS_and_UCB.htmlMCTS与UCT下面的内容引用自徐心和与徐长明的论文《计算机博弈原理与方法学概述》：蒙特卡洛模拟对局就是从某一棋局出发，随机走棋。有人形象地比喻，让两个傻子下棋，他们只懂得棋规，不懂得策略，最终总是可

2017-02-22 23:38:44 12633 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 多臂强盗（multi-armed bandit）问题探究-续2

转载 多臂强盗（multi-armed bandit）问题探究-续

转载 多臂强盗（multi-armed bandit）问题探究

转载 Tensorboard初步

转载 python实现的基于蒙特卡洛树搜索(MCTS)与UCB的五子棋游戏

空空如也

空空如也

转载多臂强盗（multi-armed bandit）问题探究-续2

转载多臂强盗（multi-armed bandit）问题探究-续

转载多臂强盗（multi-armed bandit）问题探究