小白学《神经网络与深度学习》笔记之五:深度学习的胜利:AlphaGo

1.1 AlphaGo的主要原理

AlphaGo是由三个不同部分组成:

(1)估值网络:估计棋局的状态(运行时没有任何搜素动作),计算谁领先了,领先了多少步--计算每一方赢的概率

(2)走棋策略网络:给定当前局面,预测/采样下一步的走棋,运行时也没有进行任何搜索。

(3)树搜索(MCTS, 蒙特卡洛树搜索):把两个网络结合在一起,模拟下一步会发生什么,并通过策略网络选择最佳的落子位置。

1.1.1 策略网络
1.1.2 MCTS拯救了围棋算法
1.1.3 强化学习:“周伯通,左右互搏”
1.1.4 估值网络
1.1.5 将所有组合到一起:树搜索
1.1.6 AlphaGo有多好
1.1.7 总结

   可简单总结为:首先通过估值网络评估棋局情况,其次再通过一个快速的策略网络选择下一步的位置,一直下到最后。

56e7b3b6d85c0

参考:http://www.leiphone.com/news/201603/VARZ2sn7aC2DPBkw.html

http://blog.csdn.net/starzhou/article/details/51295083

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值