大数据生态与spark简介

最新推荐文章于 2023-12-31 01:49:21 发布

布丁-77

最新推荐文章于 2023-12-31 01:49:21 发布

阅读量154

点赞数

文章标签： spark hadoop

本文链接：https://blog.csdn.net/weixin_52236992/article/details/114187072

版权

大数据生态与spark简介

大数据生态

首先先了解一下大数据（big data）概念
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据不仅仅是数据的**“大量化”（volume），而是包含“快速化”（velocity），“多样化”（variety），和“价值化”(value)**等多重属性。

大数据生态：网络化数据社会与现实社会的有机融合、互动以及协调，形成大数据感知、管理、分析与应用服务的新一代信息技术架构和良性增益的闭环生态系统。
大数据生态圈有Hadoop生态圈和Spark生态圈。

Hadoop生态系统图如下：
在这里插入图片描述

Spark简介

Spark历史
Spark最初由美国加州大学伯克利分校（UC Berkeley）的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序
在这里插入图片描述

Spark成绩
Spark在2014年打破了Hadoop保持的基准排序纪录
Spark/206个节点/23分钟/100TB数据
Hadoop/2000个节点/72分钟/100TB数据
Spark用十分之一的计算资源，获得了比Hadoop快3倍的速度
Spark具有如下几个主要特点：
运行速度快：使用DAG执行引擎以支持循环数据流与内存计算
容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程
通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件
运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源
** spark架构图
**

Hadoop与Spark的对比
Spark在借鉴Hadoop MapReduce优点的同时，很好地解决了MapReduce所面临的问题

相比于Hadoop MapReduce，Spark主要具有如下优点：

Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活
Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高
Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制
在这里插入图片描述