Hadoop学习笔记--Hadoop生态系统、体系架构及特点


引言

Hadoop是Apache基金会旗下的一个可靠的、可扩展的分布式计算开源软件框架,旨在从单一服务器扩展到成千上万台机器,每台机器都提供本地计算和存储,且将数据备份在多个节点上,以此提升集群的高可用性,它允许用户使用简单的编程模型在廉价的计算机集群上对大规模数据集进行分布式处理。


1.Hadoop的特点

1.1 高可用性

由于采用冗余数据存储方式,一个副本故障仍然可以正常运行;

1.2 高扩展性

可以将分布式集群部署在廉价的计算机集群上,高效稳定的工作,方便添加机器节点;

1.3 高效性

Hadoop平台可以高效处理PB级数据;

1.4 高容错性

Hadoop采用冗余数据存储方式,某一节点出现错误时,系统自动调用其他节点上的备份文件;

1.5 低成本

开源、可部署在廉价的计算机集群上;

1.6 支持多种平台

支持windows和GNU/Linux平台;

1.7 支持多种编程语言

可用Java和C++编写;

2.Hadoop的生态系统

Hadoop生态系统

2.1 HDFS

HDFS(Hadoop Distributed File System)是Hadoop分布式文件系统,具有高容错性,可部署在廉价机器上,提供高吞吐量的数据访问,为大数据的存储提供了保障。

2.2 MapReduce

Hadoop MapReduce是一个分布式的、并行处理的编程模型,利用函数式编程式思想,提供Map和Reduce函数编写,实现复杂的集群并行运算。其中Map是对可以并行处理的小数据集进行本地计算并输出中间结果,Reduce是对各个Map的输出结果进行汇总计算得到最终结果。

2.3 YARN

YARN(Yet Another Resource Negotiator)是统一资源管理和调度框架

3.Hadoop的体系架构

Hadoop体系架构

Hadoop集群采用主从架构(Master/Slave),NameNode和ResourceManager为Master,DateNode和NodeManager为Slave,守护进程NameNode和DataNode负责完成HDFS的工作,守护进程ResourceManager和NodeManager则负责完成YARN的工作。


总结

以上就是Hadoop的特点、集群架构和体系架构了,欢迎大家在评论区补充!

参考《Hadoop大数据原理与运用》徐鲁辉

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值