Hadoop基本内容

Process-H

已于 2022-07-26 17:34:18 修改

阅读量382

点赞数

分类专栏： Hadoop 文章标签： hadoop 大数据 hdfs

于 2022-07-26 17:17:13 首次发布

本文链接：https://blog.csdn.net/weixin_44496135/article/details/125916617

版权

本文介绍了Hadoop作为大数据处理的重要工具，详细讲解了Hadoop的高可靠性、高拓展性和高效性等优势，以及其在大数据处理中的核心组件HDFS、YARN和MapReduce的工作原理。HDFS的文件块大小、读写流程、副本节点选择策略等内容也被深入探讨，强调了NameNode和DataNode的角色。此外，还讨论了YARN作为资源协调者的角色和MapReduce的计算模型。

摘要由CSDN通过智能技术生成

大数据特点

1.Volume（大量）
2.Velocity（高速）
3.Variety（多样）
4.Value（低价值密度）

Hadoop概述

1.Hadoop优势

（1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据丢失。
（2）高拓展性：在集群间分配任务数据，可方便的扩展数以千计的节点。
（3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
（4）高容错性：能够自动将失败的任务重新分配。

2.Hadoop优缺点

优点

（1）高容错性
数据自动保存多个副本。它通过增加副本的形式，提高容错性。某一个副本丢失以后，它可以自动恢复。
（2）适合处理大数据
数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据；
文件规模：能够处理百万规模以上的文件数量，数量相当之大。
（3）可构建在廉价机器上，通过多副本机制，提高可靠性。

缺点

（1）不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。
（2）无法高效的对大量小文件进行存储。
存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的，因为NameNode的内存总是有限的；
小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标。
（3）不支持并发写入、文件随机修改。
一个文件只能有一个写，不允许多个线程同时写；
仅支持数据append（追加），不支持文件的随机修改。