大数据生态及Spark简介

最新推荐文章于 2021-03-21 17:26:30 发布

weixin_52111800

最新推荐文章于 2021-03-21 17:26:30 发布

阅读量141

点赞数 1

本文链接：https://blog.csdn.net/weixin_52111800/article/details/109403692

版权

一、大数据生态系统图

在这里插入图片描述
Hadoop 的四大组件：common、HDFS、MapReduce、YARN

二、Spark简介

维基百科定义：Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍，即便是运行程序于硬盘时，Spark也能快上10倍速度。Spark允许用户将数据加载至集群存储器，并多次对其进行查询，非常适合用于机器学习算法。重点你要知道的是：Spark是一种快如闪电的计算引擎

特点：

1.快，相比于mapreduce

2.易于使用，spark 支持Java，scala，python和r语言的开发等

3.通用性：spark核心项目构成要素：RDD, spark SQL, Spark Streaming, MLlib

4.完美的兼容其他开源产品，例如hadoop

Spark核心和弹性分布式数据集（RDDs）

Spark核心是整个项目的基础，提供了分布式任务调度，调度和基本的I／O功能。而其基础的程序抽象则称为弹性分布式数据集（RDDs），是一个可以并行操作、有容错机制的数据集合。 RDDs可以透过引用外部存储系统的数据集创建（例如：共享文件系统、HDFS、HBase或其他 Hadoop 数据格式的数据源）。或者是通过在现有RDDs的转换而创建（比如：map、filter、reduce、join等等）。

RDD抽象化是经由一个以Scala, Java, Python的语言集成API所呈现，简化了编程复杂性，应用程序操纵RDDs的方法类似于操纵本地端的数据集合。

Spark SQL
Spark SQL在Spark核心上带出一种名为SchemaRDD的数据抽象化概念，提供结构化和半结构化数据相关的支持。Spark SQL提供了领域特定语言，可使用Scala、Java或Python来操纵SchemaRDDs。它还支持使用使用命令行界面和ODBC／JDBC服务器操作SQL语言。在Spark 1.3版本，SchemaRDD被重命名为DataFrame。

Spark Streaming
Spark Streaming充分利用Spark核心的快速调度能力来运行流分析。它截取小批量的数据并对之运行RDD转换。这种设计使流分析可在同一个引擎内使用同一组为批量分析编写而撰写的应用程序代码。

MLlib
MLlib是Spark上分布式机器学习框架。Spark分布式存储器式的架构比Hadoop磁盘式的Apache Mahout快上10倍，扩展性甚至比Vowpal Wabbit要好。[9] MLlib可使用许多常见的机器学习和统计算法，简化大规模机器学习时间

GraphX
GraphX是Spark上的分布式图形处理框架。它提供了一组API，可用于表达图表计算并可以模拟Pregel抽象化。