小白学《神经网络与深度学习》笔记之五：深度学习的胜利：AlphaGo

最新推荐文章于 2024-04-11 14:29:31 发布

阿尔法旺旺

最新推荐文章于 2024-04-11 14:29:31 发布

阅读量846

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yingwei13mei/article/details/53730427

版权

1.1 AlphaGo的主要原理

AlphaGo是由三个不同部分组成：

（1）估值网络：估计棋局的状态（运行时没有任何搜素动作），计算谁领先了，领先了多少步--计算每一方赢的概率

（2）走棋策略网络：给定当前局面，预测/采样下一步的走棋，运行时也没有进行任何搜索。

（3）树搜索（MCTS, 蒙特卡洛树搜索）：把两个网络结合在一起，模拟下一步会发生什么，并通过策略网络选择最佳的落子位置。

1.1.1 策略网络

1.1.2 MCTS拯救了围棋算法

1.1.3 强化学习：“周伯通，左右互搏”

1.1.4 估值网络

1.1.5 将所有组合到一起：树搜索

1.1.6 AlphaGo有多好

1.1.7 总结

可简单总结为：首先通过估值网络评估棋局情况，其次再通过一个快速的策略网络选择下一步的位置，一直下到最后。

参考：http://www.leiphone.com/news/201603/VARZ2sn7aC2DPBkw.html

http://blog.csdn.net/starzhou/article/details/51295083

阿尔法旺旺

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
小白学《神经网络与深度学习》笔记之五：深度学习的胜利：AlphaGo

1.1 AlphaGo的主要原理 AlphaGo是由三个不同部分组成：（1）估值网络：估计棋局的状态（运行时没有任何搜素动作），计算谁领先了，领先了多少步--计算每一方赢的概率（2）走棋策略网络：给定当前局面，预测/采样下一步的走棋，运行时也没有进行任何搜索。（3）树搜索（MCTS, 蒙特卡洛树搜索）：把两个网络结合在一起，模拟下一步会发生什么，并通过策略网络选择最佳的落子位置
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。