Spark入门教程(1)——spark是什么及发展趋势概述

本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,如有兴趣,请支持正版书籍。

随着互联网为代表的信息技术深度发展,其背后由于历史积累产生了TB、PB甚至EB级数据量,由于传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而专门应对大数据的分布式处理技术应运而生。如今业界大数据处理的主流平台非Hadoop和Spark莫属,本书主要介绍大数据平台的后起之秀Spark,目的是通过系统学习让读者了解和应用大数据,进而提炼大数据中蕴藏的价值。 本章主要向读者介绍Spark的基础概念、发展历程、特点、与现有主流分布式应用框架的区别以及其生态系统中其他的重要组成部分(如Spark SQL、Spark Streaming、GraphX和MLlib等子项目)。目的在于让读者对分布式框架的背景及主流应用有一个宏观而全面的了解,具体细节将在后续章节向读者介绍。

1.1 Spark初见

Spark是一个基于内存的开源计算框架,于2009年诞生于加州大学伯克利分校AMPLab(AMP:Algorithms,Machines,People),它最初属于伯克利大学的研究性项目,后来在2010年正式开源,并于 2013 年成为了 Apache 基金项目,到2014年便成为 Apache 基金的顶级项目,该项目整个发展历程刚过六年时间,但其发展速度非常惊人。
正由于Spark来自于大学,其整个发展过程都充满了学术研究的标记,是学术带动Spark核心架构的发展,如弹性分布式数据集(RDD,resilient distributed datasets)、流处理(Spark streaming)、机器学习(MLlib)、SQL分析(Spark SQL)和图计算(GraphX),本节将主要介绍Spark发展历程和特点。

1.1.1Spark发展史及近况

Spark起初只是一个学术性研究项目,从创立到如今蜚声海外并且在大数据领域成为风尖浪口的热门项目只花了6年左右的时间,其具体发展大事记如下。

  • 2009年Spark诞生于伯克利AMPLab。
  • 项目在2010年早些时候开源,很多早期关于Spark系统的思想在不同论文中发表。
  • 项目开源之后,在GitHub上成立了Spark开发社区并在2013年成为Apache孵化项目。
  • 该项目在2014年2月成为Apache顶级项目。
  • 2014年5月30日Spark 1.0.0版正式上线。
  • 截止到2015年,Spark官方维护运营公司Databricks已经组织并举办了三年Spark Summit技术峰会。

Spark项目组核心成员在2013年创建了Databricks公司,到目前为止已经在San Francisco连续举办了从2013年到2015年的Spark Summit峰会。会议得到大数据主流厂商Hortonworks、IBM、cloudera、MAPR和Pivotal等公司的支持和大数据方案解决商Amazon、DATASTAX和SAP等公司的合作,Spark的用户和应用量一直在迅速增加,如图1-1所示。

图1-1  截止2015年Spark的主要用户和应用

从图1-1[ 图1-1引用自https://spark-summit.org/2015/]中可以看出Spark的影响力在2014年(可参考2014年Spark峰会资料)的基础上不断扩大,已经有越来越多Spark用户使用该平台,其中包括传统工业厂商TOYOTA和著名O2O公司Uber与airbnb,说明Spark的用户领域不断深化到传统工业界和互联网与传统行业交叉的领域。不仅如此,越来越多的大数据商业版发行商例如Cloudera以及Hortonworks也开始将Spark纳入其部署范围,这无疑对Spark的商业应用和推广起到巨大作用,另一方面也显示Spark平台技术的先进性。
从Spark的版本演化速度看,说明这个平台旺盛的生命力以及社区的活跃度。尤其在2013年来,Spark进入了一个高速发展期,代码库提交与社区活跃度都有显著增长。以活跃度论,Spark在所有Aparch基金会开源项目中位列前三。相较于其他大数据平台或框架而言,Spark的代码库最为活跃,表现出强劲的发展势头,从图1-2中可以看到。

过去6个月里 Spark代码活跃情况(从2014年6月30为基点)

从2013年6月到2014年6月,参与贡献的开发人员从原来的68位增长到255位,截止到2015年6月参与开发的人员已经达到730位(数据引用自Spark Summit 2015中报告),参与贡献的公司逐渐有来自中国的阿里巴巴、百度、网易、腾讯和搜狐等公司。代码库的代码行也从2014年的17万行增长到2015年的40万行。下图为截止2014年Spark代码贡献者的增长曲线,如图1-3可以了解到。

图1-3 截止2014年Spark代码贡献者每个月的增长曲线

从图1-3可以看出Sp

  • 17
    点赞
  • 119
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值