RLlib简介:一个可组合和可扩展的强化学习计算库

编者注:更多使用强化学习构建人工智能应用的内容请关注2018年4月10-13日人工智能北京大会。

在之前的文章中,我概述了强化学习(RL)在工业中的新兴应用。我首先列举了任何想要应用RL的人面临的挑战,包括对大量数据的需求,以及复制研究结果的难度以及派生出关键任务应用所需的错误估计。就算如此,RL在某些领域的成功一直是媒体广泛报道的主题。这引起了人们的兴趣,公司正在开始探讨我在之前的文章中描述的一些用例和应用。许多任务和职业,包括软件开发,都将可能会纳入某些形式的由AI驱动的自动化。在这篇文章中,我将描述RISE实验室的Ray平台如何随着公司考察RL的用例而不断发展和成熟。

假设已经确定了合适的用例,那么如何开始使用RL?大多数正在考虑使用RL进行试点项目的公司都希望利用现有的库。

图1. RL训练囊括很多种计算。感谢Richard Liaw和Eric Liang提供的图片,使用已经过允许

有几个开源项目可以作为尝试的起点。 从技术角度来看,在考虑使用何种RL库时,有几个关键点:

  • 它要支持现有的机器学习库。 因为RL通常使用基于梯度下降或进化算法来学习和拟合策略函数,所以您需要它支持您最喜欢的库(TensorFlow,Keras,PyTorch等)。

  • 可扩展性。 RL是计算密集型的,并且在关键应用程序中开始使用RL时,可以选择以分布式方式运行。

  • 可组合性。 RL算法通常涉及模拟和许多其他组件。 您将需要一个库,允许您重用与多种深度学习框架兼容的RL算法组件(例如策略图,走子演算等),并提供可组合的分布式执行原语(嵌套并行)。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值