如何选择合适的分布式机器学习平台

最新推荐文章于 2021-11-07 15:27:38 发布

高可用架构

最新推荐文章于 2021-11-07 15:27:38 发布

阅读量224

点赞数

本文链接：https://blog.csdn.net/weixin_45583158/article/details/100143262

版权

本文探讨了如何在Spark、PMLS和TensorFlow等分布式机器学习平台之间进行选择。通过性能评估，指出网络是分布式ML应用程序的主要瓶颈，而资源调度和编程抽象仍是未来研究方向。

摘要由CSDN通过智能技术生成

导读：机器学习和深度学习是近年技术的热点，面对众多的机器学习平台如何进行选择，这是一个很困扰的问题。本文对分布式机器学习（ML）平台中使用的设计方法进行了调查，并提出了未来的研究方向。

本文比较了机器学习平台设计方法和使用指南，是我和 Kuo Zhang 和 Salem Alqahtani 同学合作而成。我们在 2016 年秋天写了这篇文章，并在 ICCCN'17（温哥华）提交了这篇文章。

基本数据流
参数服务器模型
高级数据流

我们简单介绍每种方法，使用 Apache Spark 作为基本数据流方法的示例，PMLS（Petrar）作为参数服务器模型的示例，TensorFlow 和 MXNet 作为高级数据流模型的示例。我们提供性能评估的评估结果。有关更多评估结果，请参阅论文。不幸的是，作为一个来自学术界的小团队我们无法进行规模评估。

在这篇文章末尾，我将介绍分布式 ML 平台未来工作的总结和建议。如果您已经有了这些分布式 ML 平台的经验，请直接跳到最后。

Spark

在 Spark 中，计算被建模为有向无环图（DAG），其中每个顶点表示弹性分布式数据集（RDD），每个边表示RDD上的操作。 RDD 是划分为逻辑（内存中或者交换到磁盘上）分区的对象集合。

在 DAG 上，从顶点A到顶点B的边缘E意味着RDD B是在RDD A上执行操作E的结果。有两种操作：转换和动作。转换（例如，映射，过滤器，连接）对RDD执行操作并产生新的RDD。

0?wx_fmt=png