学习笔记（二）

最新推荐文章于 2024-09-11 11:22:09 发布

xiaoying1223

最新推荐文章于 2024-09-11 11:22:09 发布

阅读量114

点赞数

分类专栏：学习笔记文章标签： hadoop

原文链接：https://www.cnblogs.com/jianminglin/p/11437597.html

版权

学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Hadoop 架构

HDFS：分布式文件存储
YARN：分布式资源管理
MapReduce：分布式计算
Others：利用YARN的资源管理功能实现其他的数据处理方式
内部各个节点基本都是采用 Master-Worker 架构

Hadoop HDFS
Hadoop Distributed File System，分布式文件系统

HDFS 架构

Block 数据块

基本存储单位，一般大小为 128M，配置大的块主要因为：
减少搜索时间，一般硬盘传输速率比寻道时间要快，大的块可以减少寻道时间；
减少管理块的数据开销，每个块都需要在 NameNode 上有对应的记录；
对数据块进行读写，减少建立网络的连接成本。
一个大文件会被拆分为一个个的块，然后存储于不同的机器上。如果一个文件小于 Block 大小，那么实际占用空间为其文件的大小。
基本的读写单位，类似磁盘的页，每次都是读写一个块。
每个块都会被复制到多台机器，默认复制3份。
NameNode

存储文件的 metadata，运行时所有数据都保存到内存，整个HDFS可存储的文件数受限于 NameNode 的内存大小。
一个Block在 NameNode 中对应一条记录（一般一个Block占用150字节），如果是大量的小文件，会消耗大量内存。同时 map task 的数量使用 splits 来决定的，所以用 MapReduce 处理大量的小文件时，就会产生过多的 map task，线程管理开销将会增加作业时间。处理大量小文件的速度远远小于处理同等大小的大文件的速度。因此 Hadoop 建议存储大文件。
数据会定时保存到本地磁盘，但不保存 Block 的位置信息，而是由 DataNode 注册时上报和运行时维护（NameNode 中与 DataNode 相关的信息并不保存到 NameNode 的文件系统中，而是 NameNode 每次重启后，动态创建）。
NameNode 失效则整个HDFS都失效了，所以要保证 NameNode 的可用性。
Secondary NameNode

定时与 NameNode 进行同步（定期合并文件系统镜像和编辑日志，然后把合并后的结果传给 NameNode，替换其镜像，并清空编辑日志，类似于 CheckPoint 机制），但 NameNode 失效后仍需要手工将其设置成主机。

DataNode

保存具体的 Block 数据。
负责数据的读写操作和复制操作。
DataNode 启动时会向 NameNode 报告当前存储的数据块信息，后续也会定时报告修改信息。
DataNode 之间会进行通信，复制数据块，保证数据的冗余性。