文章目录
引言
Hadoop是Apache基金会旗下的一个可靠的、可扩展的分布式计算开源软件框架,旨在从单一服务器扩展到成千上万台机器,每台机器都提供本地计算和存储,且将数据备份在多个节点上,以此提升集群的高可用性,它允许用户使用简单的编程模型在廉价的计算机集群上对大规模数据集进行分布式处理。
1.Hadoop的特点
1.1 高可用性
由于采用冗余数据存储方式,一个副本故障仍然可以正常运行;
1.2 高扩展性
可以将分布式集群部署在廉价的计算机集群上,高效稳定的工作,方便添加机器节点;
1.3 高效性
Hadoop平台可以高效处理PB级数据;
1.4 高容错性
Hadoop采用冗余数据存储方式,某一节点出现错误时,系统自动调用其他节点上的备份文件;
1.5 低成本
开源、可部署在廉价的计算机集群上;
1.6 支持多种平台
支持windows和GNU/Linux平台;
1.7 支持多种编程语言
可用Java和C++编写;
2.Hadoop的生态系统
2.1 HDFS
HDFS(Hadoop Distributed File System)是Hadoop分布式文件系统,具有高容错性,可部署在廉价机器上,提供高吞吐量的数据访问,为大数据的存储提供了保障。
2.2 MapReduce
Hadoop MapReduce是一个分布式的、并行处理的编程模型,利用函数式编程式思想,提供Map和Reduce函数编写,实现复杂的集群并行运算。其中Map是对可以并行处理的小数据集进行本地计算并输出中间结果,Reduce是对各个Map的输出结果进行汇总计算得到最终结果。
2.3 YARN
YARN(Yet Another Resource Negotiator)是统一资源管理和调度框架。
3.Hadoop的体系架构
Hadoop集群采用主从架构(Master/Slave),NameNode和ResourceManager为Master,DateNode和NodeManager为Slave,守护进程NameNode和DataNode负责完成HDFS的工作,守护进程ResourceManager和NodeManager则负责完成YARN的工作。
总结
以上就是Hadoop的特点、集群架构和体系架构了,欢迎大家在评论区补充!
参考《Hadoop大数据原理与运用》徐鲁辉