浅析大数据框架 Hadoop

恒生LIGHT云社区

于 2021-07-27 13:53:00 发布

阅读量137

点赞数

文章标签：数据库分布式大数据 hadoop java

本文链接：https://blog.csdn.net/weixin_44433834/article/details/122620085

版权

作者：幻好

来源：恒生LIGHT云社区

Hadoop 概念及其发展

Hadoop 最早起源于 Nutch。Nutch 的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

2003 年、2004 年谷歌发表的两篇论文为该问题提供了可行的解决方案。

分布式文件系统（GFS），可用于处理海量网页的存储。
分布式计算框架 MAPREDUCE，可用于处理海量网页的索引计算问题。

Nutch 的开发人员完成了相应的开源实现 HDFS 和 MAPREDUCE，并从 Nutch 中剥离成为独立项目 HADOOP，到 2008 年 1 月，HADOOP 成为 Apache 顶级项目(同年，cloudera 公司成立)，迎来了它的快速发展期。

广义上来说，Hadoop 指代大数据的一个生态圈，包括很多其他的软件。
狭义上来说，Hadoop 就是单独指代 Hadoop 这个软件。

Hadoop 的历史版本介绍

0.x 系列版本：hadoop 当中最早的一个开源版本，国外使用较多，因为当时国内大数据还没发展起来，在此基础上演变而来的 1.x 以及 2.x 的版本

1.x 版本系列：hadoop 版本当中的第二代开源版本，主要修复 0.x 版本的一些 bug 等，是存在时间最短的一代。

2.x 版本系列：架构产生重大变化，引入了 yarn 平台等许多新特性，国内目前使用最多的版本，因为当时国内正处于大数据爆发的阶段。

3.x 版本系列：引入了一些重要的功能和优化，包括 HDFS 纠删码、多 Namenode 支持(两个以上)、MR Native Task 优化、YARN 基于 cgroup 的内存和磁盘 IO 隔离等，且对 JDK 最低版本要求为 JDK1.8。发行时间较晚，目前使用不多，但未来必将成为主流。

hadoop 三大公司发型版本介绍

-免费开源版本 apache

官网： http://hadoop.apache.org/

优点：拥有全世界的开源贡献者，代码更新迭代版本比较快

缺点：版本的升级，版本的维护，版本的兼容性，版本的补丁都可能考虑不太周到，学习可以用，实际生产工作环境尽量不要使用

apache 所有软件的下载地址（包括各种历史版本）：

http://archive.apache.org/dist/

-免费开源 hortonWorks

官网： https://hortonworks.com/

hortonworks 主要是雅虎主导 Hadoop 开发的副总裁，带领二十几个核心成员成立 Hortonworks，核心产品软件 HDP（ambari），HDF 免费开源，并且提供一整套的 web 管理界面，供我们可以通过 web 界面管理我们的集群状态，web 管理界面软件 HDF 网址（ http://ambari.apache.org/ ）

-软件收费版本 ClouderaManager

官网： https://www.cloudera.com/

cloudera 主要是美国一家大数据公司在 apache 开源 hadoop 的版本上，通过自己公司内部的各种补丁，实现版本之间的稳定运行，大数据生态圈的各个版本的软件都提供了对应的版本，解决了版本的升级困难，版本兼容性等各种问题

Hadoop 的模块组成

Hadoop HDFS：一个高可靠、高吞吐量的分布式文件系统。
Hadoop MapReduce：一个分布式的离线并行计算框架。
Hadoop YARN：作业调度与集群资源管理的框架。
Hadoop Common：支持其他模块的工具模块。

Hadoop 的架构模型

NameNode 与 ResourceManager 单节点架构模型

文件系统核心模块：

NameNode：集群当中的主节点，主要用于管理集群当中的各种数据
secondaryNameNode：主要能用于 hadoop 当中元数据信息的辅助管理
DataNode：集群当中的从节点，主要用于存储集群当中的各种数据

数据计算核心模块：

ResourceManager：接收用户的计算请求任务，并负责集群的资源分配
NodeManager：主要用于接收 applicationMaster 分配的任务
applicationMaster: resourcemanager 为每个计算任务启动一个 appMaster, appMatser 主要负责资源的申请, 任务的分配
NameNode 与 ResourceManager 高可用架构模型