【并行与分布式计算】第五章--大数据多机计算

耿耿于怀1762616314

已于 2023-02-20 13:59:17 修改

阅读量304

点赞数 1

分类专栏：并行与分布式计算文章标签：大数据 hadoop 分布式

于 2023-02-19 13:41:23 首次发布

本文链接：https://blog.csdn.net/weixin_53897134/article/details/129071997

版权

并行与分布式计算专栏收录该内容

7 篇文章 7 订阅

订阅专栏

大数据和分布式的基础概念

从硬件和软件的角度思考实现大数据的需要

硬件角度：（1）大量机器的集群构成数据中心 （2）使用高速互联网络对大量机器进行连接以确保数据传递（3）综合考量数据中心的散热问题、能耗问题，以及各方面成本（4）集群中硬件发生故障的概率很高，如何确保可靠性 （5）单一架构的机器难以胜任各种计算类型，考虑异构计算

软件角度：（1）分而治之，使用分片存储策略和分布式算法对大数据进行存储与处理（2）考虑存储与计算的容错性，以使得故障发生时造成的损失最小化（3）算法设计方面要尽可能减少节点间通信（因为这很耗时）

分布式

将任务分配到许多节点上去，借助网络并行计算。包括分布式存储和分布式计算。

谷歌“三驾马车”

GFS（分布式文件系统）、BigTable（管理结构化数据的分布式存储系统）、MapReduce（处理和生成大数据集的编程模型）

Hadoop

Hadoop概念

Hadoop是一系列开源软件的集合，是为大数据处理而设计的框架。

HDFS

概念：是Hadoop下的一个分布式的文件系统。

HDFS的架构：HDFS使用master/slave架构，包含一个NameNode和多个DataNode。目录结构、命名空间、分块的存储位置由NameNode维护；文件的各个实际的块由DataNode存储。

特点：（1）分块存储，每个块都有多个副本，有较高容错性。（2）一个文件一旦创建、写入和关闭就不需要更改，除了追加和截断，这样简化了一致性问题且提高了吞吐。

YARN

概念：是Hadoop下用来调度计算任务和计算资源的框架。

架构：（1）master/slave架构，master是ResourceManager，slave是NodeManager；（2）ResourceManager--负责集群中全部应用程序的资源调度，包含Scheduler和ApplicationManager两个组件；（3）NodeManager--负责管理容器，监控其使用情况，而ApplicationMaster则负责管理一个Application，向ResourceManager汇报资源状态和申请资源。