大数据知识

李强 DST

已于 2022-08-14 16:27:21 修改

阅读量433

点赞数

分类专栏：面试知识文章标签： hadoop 大数据 hdfs

于 2022-08-14 16:24:59 首次发布

本文链接：https://blog.csdn.net/whereiwillgo/article/details/126328306

版权

面试知识专栏收录该内容

1 篇文章 0 订阅

订阅专栏

《大数据架构师指南》

大数据本质

如何从海量的，多样化的，低价值密度的数据中，快速挖掘出其蕴含的有用价值，是大数据技术的使用。

大数据的基本特征：

海量化：数据量巨大
多样化：数据类型多样
快速化：要求快速处理
价值化：整体价值巨大，但其中干扰信息多，价值密度低

大数据带来的思维变革：

全样本：当前技术可以支撑海量的全量数据处理，很多场景也需要全量处理
概率化：运行混杂劣质数据，不追求精确性，用概率来表示事物发展的大方向
相关性：更关心相关关系，弱化因果关系

Hadoop框架

Hadoop 1.0

HDFS(redundant,reliable storage)
MapReduce(cluster resource management & data processing)

Hadoop 2.0

HDFS(redundant,reliable storage)
YARN(cluster resource management)
MapReduce(data processing)
Others(data processing)

HDFS

分布式文件系统

体系架构：

Client：发送请求接收响应
NameNode：元数据管理
DataNode：真正的数据存储

NameNode：

负责管理文件系统的命名空间以及客户端对文件的访问。
NameNode将所有文件和文件夹的元数据保存在一个文件系统数中，包含一个文件包含哪些数据块，及这些数据块分布在哪些数据节点上。
元数据信息并不存储在硬盘上，而是在启动的时候又DataNode上报到NameNode的。
HDFS采用大一NameNode结构，大大简化了系统架构，使NameNode成为HDFS元数据的仲裁者和管理者。
用户数据不会流过NameNode，其只管理元数据。

DataNode

文件系统中真正存储数据的地方，负责处理客户端的读写请求。
DataName在NameNode统一调度下进行数据块（Block）的创建、删除和复制，并周期性的向NameNode汇报在本DataNode上存储的数据块信息。
客户端可以向DataNode请求写入或读取数据块。

数据块复制

HDFS的设计场景是“一次写入，多次读取”。实际使用时，客户端将文件一次性写入HDFS中，在写入过程中进行数据块的创建、写入。在写入完成后文件和数据块都将不再变化，HDFS再采用数据块复制，构造多副本的方式，实现数据可靠性。
3副本方式中，副本2放置到与原DataNode相同机架的另一节点，副本3放置到不同机架的其他节点上。
客户端读取时，HDFS将其引导到距其最近的节点上。