跟天齐老师学Spark（1）--Spark简介

最新推荐文章于 2017-10-06 20:54:53 发布

十光年

最新推荐文章于 2017-10-06 20:54:53 发布

阅读量342

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/xbs1019/article/details/54898031

版权

Spark 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

spark官网：http://spark.apache.org

Spark其实是一个大数据计算引擎，只能解决计算的问题，它需要依赖数据的存储系统；
Spark不会取代Hadoop，因为Hadoop不仅是解决了计算的问题，它还解决了存储的问题；
spark是apache旗下的一个开源框架。它的logo：快如闪电的一个集群。
用来做大规模的数据计算处理。
在2016年7月出来spark-2.0版本，我们现在使用的是1.6.2版本；

Spark比hadoop的MapReduce在内存中快100倍，即使在磁盘上也比Hadoop快10倍。
在Spark的计算引擎之上有很多强大的工具：spark sql，spark streaming，mllib，graphx。提供一站式计算服务（离线计算、实时计算、机器学习、图计算等）。这些都是它的子项目，但是他们都是运行在spark的计算引擎之上。
有了spark的话，我们只要一个spark集群即可。
如果用hadoop的话，要维护hadoop集群，可能还要维护storm集群。
但是如果你的公司搞了2年hadoop相关的技术了，现在突然转向spark的话，可能转化的成本比较高。
如果你的公司刚开始起步，可以优先选择spark技术。

它的特点：快，易用（java，scala，python，R），通用，运行在多平台（可以运行在yarn这个资源调度平台上，可以从hdfs中读数据，再写入hdfs，还可以运行在mesos资源调度平台上，spark还可以运行在自己独立的集群模式上，这就是standalone集群模式，spark还可以运行在云上，可以从hdfs中读数据，从hbase中读数据，从cassandra中读数据，还可以跑在S3上）

对spark贡献排名第一的是一个华人（美国伯克利大学）。还有很多的国人面孔。

十光年

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
跟天齐老师学Spark（1）--Spark简介

spark官网：http://spark.apache.orgSpark其实是一个大数据计算引擎，只能解决计算的问题，它需要依赖数据的存储系统；Spark不会取代Hadoop，因为Hadoop不仅是解决了计算的问题，它还解决了存储的问题；spark是apache旗下的一个开源框架。它的logo：快如闪电的一个集群。用来做大规模的数据计算处理。在2016年7月出来spark-
复制链接

扫一扫