使用RayOnSpark在大数据平台上运行新兴的人工智能应用

最新推荐文章于 2023-12-24 21:58:04 发布

Apache Spark中国社区

最新推荐文章于 2023-12-24 21:58:04 发布

阅读量663

点赞数 1

文章标签：分布式人工智能大数据编程语言 python

本文链接：https://blog.csdn.net/weixin_45906054/article/details/107777149

版权

RayOnSpark使Ray的分布式应用能够直接与Apache Spark集成，避免集群间数据传输延迟，支持使用Spark数据开发人工智能应用。Intel工程师黄凯在直播中介绍了Ray、Analytics Zoo以及RayOnSpark的动机、实现细节和实际案例，展示了如何在大数据平台上构建高效的人工智能流水线。

摘要由CSDN通过智能技术生成

RayOnSpark 能够让Ray的分布式应用直接无缝地集成到Apache Spark的数据处理流水线中，省去集群间数据传输的overhead，支持用户使用Spark处理的数据做新兴人工智能应用的开发。本次直播将由Intel大数据团队软件工程师黄凯为您介绍Ray和Intel的开源项目Analytics Zoo，开发RayOnSpark的动机和初衷，同时结合实际案例分享RayOnSpark的落地实践。

原视频链接：https://developer.aliyun.com/live/43188

活动链接：SPARK中文峰会7月4日（二）｜Ray On Spark

演讲嘉宾简介：黄凯，Intel大数据团队软件工程师，大数据和人工智能开源项目Analytics Zoo和BigDL的核心贡献者之一。

以下内容根据演讲视频以及PPT整理而成。

点击链接观看精彩回放：

https://developer.aliyun.com/live/43188

本次分享主要围绕以下五个方面：
一、Overview of Analytics Zoo
二、Introduction to Ray
三、Motivations for Ray On Apache Spark
四、Implementation details and API design
五、Real-world use cases

一、Overview of Analytics Zoo

AI on Big Data

英特尔大数据团队近几年在助力人工智能落地方面做了很多工作，先后开源了两个项目。在2016年底开源了BigDL，是基于Apache Spark开发的分布式高性能的深度学习框架，首次将深度学习引入到大数据平台中，让用户在大数据平台上更容易使用深度学习的算法。用BigDL写的深度学习应用是一个标准的Spark程序，可以运行在标准的Spark或Hadoop集群上，对集群不需要做任何特殊的修改。BigDL在深度学习方面对标了现在流行的其他深度学习框架，和它们一样提供了丰富的深度学习功能。在性能方面BigDL利用并行计算，以及依赖于英特尔底层的库，如MKL等，使得BigDL基于CPU能有良好的性能。在可扩展性方面，BigDL能通过Spark扩展到成百上千个节点上做对深度学习模型做分布式的训练和预测。

开源了BigDL之后，英特尔又开源了统一的数据分析和AI平台Analytics Zoo，用户可以根据不同的需求，在大数据的平台上直接运行