Hadoop（1）——入门

最新推荐文章于 2024-05-27 22:30:21 发布

wish_night

最新推荐文章于 2024-05-27 22:30:21 发布

阅读量118

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/wish_night/article/details/99193501

版权

3 篇文章 0 订阅

订阅专栏

Hadoop组成*

Hadoop2.x时，增加Yarn。Yarn只负责资源的调度，MapReduce只负责运算。‘

HDFS可靠性：

冗余副本策略

机架策略（副本尽量分布在不同机架结点中，人为通过py脚本设置）

心跳机制（NameNode周期性从datanode接受心跳信号和块报告，并按情况做修复）

安全模式（NameNode启动先经过“安全模式”阶段，要一定比例数据的副本数达标才离开）

Block的说明

默认大小64M，当NameNode读取block时候，它会计算校验和，若计算后校验和与block创建时值不一样，说明block已经损坏。

NameNode(nn):存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的快列表和快所在的DataNode等。
DataNode(dn):在本地文件系统存储文件块数据，以及块数据的校验和。
Secondary NameNode(2nn)：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

Yet Another Resource Negotiator

ApplicationMaster(AM):1.负责数据切分 2.为应用程序申请资源并分配给内部的任务 3.任务的监控和容错

Container：Container是YARN中的资源抽象，在封装了某个结点上的多维资源，如内存、CPU、磁盘、网络等。

MapReduce将计算过程分为两个阶段：Map和Reduce

1）Map阶段并行处理输入数据。

2）Reduce阶段对Map结果进行汇总。

Hive是Hadoop项目中的一个子项目，被视为一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并可以将sql语句转化为MapReduce任务进行运行。

优点：学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分时候数据仓库的统计分析。

关注