---------原理
zhi_fu
这个作者很懒,什么都没留下…
展开
-
用Apache Spark进行大数据处理——第一部分:入门介绍
什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。 首先,Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数转载 2017-07-22 15:19:50 · 1075 阅读 · 0 评论 -
用Apache Spark进行大数据处理——第二部分:Spark SQL
在Apache Spark文章系列的前一篇文章中,我们学习了什么是Apache Spark框架,以及如何用该框架帮助组织处理大数据处理分析的需求。 Spark SQL,作为Apache Spark大数据框架的一部分,主要用于结构化数据处理和对Spark数据执行类SQL的查询。通过Spark SQL,可以针对不同格式的数据执行ETL操作(如JSON,Parquet,数据库)然后完成特定的查询操转载 2017-07-22 17:11:47 · 1093 阅读 · 0 评论 -
用Apache Spark进行大数据处理——第三部分:Spark流
介绍 在“用Apache Spark进行大数据处理”系列的前两篇文章中,我们看到了Apache Spark框架是什么(第一部分)还有如何使用Spark SQL库访问数据的SQL接口(第二部分)。 这些方案是基于批处理模式下静态信息处理的,比如作为一个按小时或天运行的任务。但若是在数据驱动的业务决策场景下,当需要飞快地分析实时数据流以执行分析并创建决策支持时,又该如何呢? 使用流式数据转载 2017-07-22 17:17:11 · 1974 阅读 · 0 评论 -
用Apache Spark做大数据处理——第四部分:Spark MLlib机器学习库(英文版)
In this article, we'll discuss machine learning concepts and how to use Apache Spark MLlib library for running predictive analytics. We will use a sample application to illustrate the powerful API Spa转载 2017-07-22 17:25:10 · 1365 阅读 · 0 评论 -
用Apache Spark做大数据处理——第五部分:Spark机器学习数据流水线
在这篇文章中,我们Spark的其它机器学习API,名为Spark ML,如果要用数据流水线来开发大数据应用程序的话,这个是推荐的解决方案。 Spark ML(spark.ml)包提供了构建在DataFrame之上的机器学习API,它已经成了Spark SQL库的核心部分。这个包可以用于开发和管理机器学习流水线。它也可以提供特征抽取器、转换器、选择器,并支持分类、汇聚和分簇等机器学转载 2017-07-22 17:35:08 · 922 阅读 · 0 评论 -
用Apache Spark进行大数据处理 - 第六部分: 用Spark GraphX进行图数据分析
大数据呈现出不同的形态和大小。它可以是批处理数据,也可以是实时数据流;对前者需要离线处理,需要较多的时间来处理大量的数据行,产生结果和有洞察力的见解,而对后者需要实时处理并几乎同时生成对数据的见解。 我们已经了解了如何将Apache Spark应用于处理批数据(Spark Core)以及处理实时数据(Spark Streaming)。 有时候,所需处理的数据是很自然地联系在一起的。转载 2017-07-23 12:02:11 · 2011 阅读 · 0 评论