Spark知识小解

最新推荐文章于 2024-09-02 20:20:53 发布

xy20035237

最新推荐文章于 2024-09-02 20:20:53 发布

阅读量875

点赞数 29

文章标签： vue.js 前端 javascript

本文链接：https://blog.csdn.net/xy20035237/article/details/136687595

版权

1.Hadoop生态圈及组件：

在了解 Hadoop 生态系统及其组件之前，我们首先了解一下 Hadoop 的三大组件，即 HDFS、MapReduce、YARN，它们共同构成了 Hadoop 分布式计算框架的核心。

HDFS（Hadoop Distributed File System）：HDFS 是 Hadoop 的分布式文件系统，它是将大规模数据分散存储在多个节点上的基础。HDFS 主要负责数据的存储和管理，可以将大数据集分成多个数据块，并将这些数据块分配到不同的计算节点上存储，提高数据的可靠性和处理效率。

MapReduce：MapReduce 是 Hadoop 的分布式计算框架，它提供了一种简单的编程模型，通过将大规模数据分解成多个小任务并行处理，可以大大提高数据处理的效率。MapReduce 模型包括 Map 和 Reduce 两个阶段，其中 Map 阶段将数据分解成多个小块进行处理，Reduce 阶段将处理结果合并。

YARN（Yet Another Resource Negotiator）：YARN 是 Hadoop 的资源管理器，它负责为多个应用程序分配和管理计算资源，可以有效地提高计算资源的利用率。YARN 可以将集群中的计算资源划分为多个容器，为不同的应用程序提供适当的资源，并监控和管理各个应用程序的运行状态。

2.MapReduce特点及运行架构：计算向数据靠拢，分而治之，MapReduce包含四个组成部分，分别为Client、JobTracker、TaskTracker和Task，下面我们详细介绍这四个组成部分。

3.spark的特点及与MapReduce的区别：

(1)运行速度快，如果数据由磁盘读取，速度是hadoop mapreduce的10倍以上，如果数据从内存读取，速度是hadoop mapreduce的100倍以上。主要原因是因为基于内存计算和引入DAG执行引擎。

(2)易用性好，spark不仅支持scala编程呢个，还支持java和python编写。

(3)通用性好

(4)随处运行

区别：(1)spark把中间数据放在内存中，迭代运算效率高。mapreduce中的计算结果保存在磁盘上，而spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率。

(2)spark容错性高。引进了RDD,如果数据集一部分丢失，则可以重建。另外，在RDD计算时可以通过checkpoint来实现容错。

(3)spark更加通用。不像hadoop只提供map和reduce两种操作。spark提供的数据集操作类型有很多种，大致分为转换操作和行动操作。转换操作包括map,filter,flatmap,sample,groupbykey,reducebykey,union,join,cogroup,mapvalues,sort和partionby等多种操作类型，行动操作包括collect,reduce,lookup和save等操作类型。另外，各个处理节点之间的通信模型不再像Hadoop只有shuffle一种模式，用户可以命名，物化，控制中间结果的存储，分区等。

4.冷备，温备，热备：

热备（在线备份）：在数据库运行时直接备份，对数据库操作没有任何影响。
冷备（离线备份）：在数据库停止时进行备份。
温备：在数据库运行时加全局读锁备份，保证了备份数据的一致性，但对性能有影响。

5.数据类型：

基本数据类型

xy20035237

关注

29
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Spark知识小解

1.Hadoop生态圈及组件：在了解 Hadoop 生态系统及其组件之前，我们首先了解一下 Hadoop 的三大组件，即 HDFS、MapReduce、YARN，它们共同构成了 Hadoop 分布式计算框架的核心。HDFS（Hadoop Distributed File System）：HDFS 是 Hadoop 的分布式文件系统，它是将大规模数据分散存储在多个节点上的基础。
复制链接

扫一扫