Hadoop学习笔记：HDFS理论知识

最新推荐文章于 2023-11-23 19:40:16 发布

忌颓废

最新推荐文章于 2023-11-23 19:40:16 发布

阅读量1.2k

点赞数

分类专栏： hadoop+spark 文章标签： hadoop hdfs 大数据

本文链接：https://blog.csdn.net/weixin_44947339/article/details/104522465

版权

本文详细介绍了Hadoop的分布式文件系统HDFS，包括其架构、主要组件如NameNode、SecondaryNameNode和DataNode的角色和功能，以及HDFS体系结构的局限性，探讨了名称空间限制、性能瓶颈、隔离问题和集群可用性等问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

阅读目录

HDFS介绍

HDFS是hadoop自带的分布式文件系统，英文名为：Hadoop Distributed Filesystem，HDFS以流式数据访问模式来存储超大文件。

分布式文件系统的结构

分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类，一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode)，另一类叫“从节点”（Slave Node）或者也被称为“数据节点”(DataNode)
在这里插入图片描述

HDFS主要组件的功能

NameNode	DataNode
存储元数据	存储文件内容
元数据保存在内存中	文件内容保存在磁盘中
保存文件，block，datanode之间的映射关系	维护了block id到datanode本地文件爱的映射关系

名称节点（NameNode）

在HDFS中，名称节点（NameNode）负责管理分布式文件系统的命名空（Namespace）保存了两个核心的数据结构，即FsImage和EditLog
- FsIma

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

忌颓废

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大数据笔记（二）：HDFS原理知识

Lansonli（蓝深李）的博客

04-22

1112

存储模型架构设计角色功能元数据持久化安全模式副本放置策略读写流程

大数据笔记（三）：HDFS集群搭建-伪分布式模式

Lansonli（蓝深李）的博客

04-24

3892

HDFS集群搭建-伪分布式模式

参与评论您还未登录，请先登录后发表或查看评论

试述HDFS一个名称节点的优缺点

千里我独行

01-04

3996

优点：1、一个名称节点，负责所有元数据的管理，简化分布式文件系统结构；可以保证数据不会脱离名称节点的控制； 2、用户数据不会经过名称节点，减轻名称节点负担，方便数据管理，数据节点扩展不会带来性能下降缺点：1、命名空间限制；命名空间中的对象如文件，目录，文件块，数据块，数据节点等这些信息占用一定字节。 NameNode保存全局命名空间，NameN...

HDFS源码分析：NameNode相关的数据结构

weixin_30629653的博客

03-03

287

本文主要基于Hadoop1.1.2分析HDFS中的关键数据结构。 1 NameNode 首先从NameNode开始。NameNode的主要数据结构如下： NameNode管理着两张很重要的表: 1) filename->blocksequence (namespace) 2) block->machinelist ("inodes") 第一张表保存在磁盘上，第...

夸父追日——大数据技术原理与应用

Azury0910的博客

01-04

1755

期末复习笔记

3分布式文件系统HDFS

weixin_30663471的博客

06-30

362

3.1分布式文件系统 3.1.1计算机集群结构分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是，目前的分布式文件系统所采用的计算机集群，都由普通硬件构成的，这就大大降低了硬件上的开销 3.1.2分布式文件系统的结构分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节...

hadoop部分面试题

weixin_42880809的博客

03-10

2738

1、下面哪个Linux命令可以一次显示一页内容？（B） A pause () B cat C more（查看一页） D grep（查找） 2、怎样更改一个文件的权限设置？（B） A attrib B chmod C change D. file 3、假如当前系统是在 level 3 运行，怎样不重启系统就可转换到 level 5 运行？ ...

Hadoop学习笔记：掌握Java实现Hadoop编程

不过，可以对Hadoop学习过程中常用的一些Java API和相关概念进行知识点的阐述。 1. HDFS API: Hadoop的分布式文件系统提供了Java API，允许开发者以编程方式操作存储在HDFS上的数据。常见的操作包括创建目录、列出...

Hadoop学习笔记

weixin_45906989的博客

08-13

1667

Handoop学习笔记

HDFS 第一名称节点和第二名称节点

S_zhangmin的博客

03-18

8633

这里的第一名称节点类似于数据目录。其主要有两大构件构成，FsImage和Editlog，FsImage用于存储元数据(长时间不更新、Editlog用于更新数据，但是随着时间推移，Editlog内存储的数据越来越多，导致运行速度越来越慢。所以引入第二名称节点，当第一节点中Editlog到一个临界值时，HDFS会暂停服务，由第二节点将拷贝出Editlog，复制、添加到Fslmage后方并清空原Ed...

简单理解Hadoop（Hadoop是什么、如何工作）

热门推荐

愿我如星君如月 ... 夜夜流光相皎洁 ...

05-23

5万+

一、Hadoop主要的任务部署分为3个部分，分别是：Client机器，主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map Reduce进行监控和调度数据的并行处理时，名称节点则负责HDFS监视和调度。从节点负责了机器运行的绝大部分，担当所有数据储存和指令计算的苦差。每个从节点既扮演者数据节点的角色又冲当与他们主节点通信...

HCIA-Big Data华为认证大数据工程师在线课程笔记

L小Ray想有腮

11-19

7094

文章目录简介简介 大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。对比项数据库 大数据 数据规模小（以MB为处理单位）大（以GB、TB、PB为处理单位）数据类型单一（结构化为主）繁多（结构化、半结构化、非结构化）模式和数据的关系先有模式后有数据先有数据后有模式，模式随数据增多不断演变处理对象数据（池塘中的鱼）预测（“鱼”，通过某些鱼判断其它种类的鱼是否存在）处理工具 One size fits all No si

HDFS技术原理（下）

weixin_42073629的博客

04-14

910

HDFS体系结构 HDFS体系结构概述： HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群包括一个名称节点（NameNode）和若干个数据节点（DataNode）。名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问。集群中的数据节点一般是一个节点运行一个数据节点进程，负责处理文件系统客户端的读/写请求，在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际上是保存在本地Linux文件系统中的。 HDFS命名空间管理： HDFS

2-Hadoop的HDFS详解(一)

qnvhuang的博客

04-10

1578

Hadoop之HDFS<一>：脑图：目录： HDFS的由来和相关概念 HDFS的体系结构，HDFS的存储原理 HDFS的数据读写过程 HDFS编程实践 HDFS简介：全称：Hadoo Distributed File System 目的：为了解决海量数据的分布式存储问题。分布式文件系统的起源：随着海量数据的产生，单机无法存储这么多数据，需要借助计算机集群来处理海量的数据。 ...

中国大学生mooc大数据技术原理与应用(林子雨)答案

hadu_kaka的专栏

11-30

3万+

大数据技术原理与应用（林子雨）第1章 大数据概述 1单选(2分) 第三次信息化浪潮的标志是： A.个人电脑的普及 B.云计算、大数据、物联网技术的普及 C.虚拟现实技术的普及 D.互联网的普及正确答案：B你选对了 2单选(2分) 就数据的量级而言，1PB数据是多少TB？ A.2048 B.1000 C.512 D.1024 正确答案：D你选对了 3单选(2分) 以下关于云计算、大数据和物联网之间的关系，论述错误的是： A.云计算侧重于数据分析 B....

HCIA-Big Data V3.0 华为认证大数据工程师在线课程章节测试题汇总