hdfs
文章平均质量分 81
hdfs
fiveym
今天不杀猪️
展开
-
HDFS中snapshot快照机制
snapshot是数据存储的某一时刻的状态记录,备份(backup)则是数据存储的某一个时刻的副本HDFS snapshot快照是整个文件系统或某个目录在某个时刻的镜像,该镜像并不会随着源目录的改变而进行动态的更新。原创 2023-08-08 18:05:44 · 1056 阅读 · 0 评论 -
HDFS中的Trash垃圾桶回收机制
HDFS Trash机制,目的防止无意中删除某些东西。默认情况下是不开启的启用Trash功能之后,从HDFS中删除某些内容时,文件或目录不会立即被清楚,他们将被移动到回收站Current目录中(/user/${username}.Trash/current).Trash中的文件在用户可配置的时间延迟后被永久删除也可以简单的讲回收站里的文件移动到.Trash目录之外的位置来恢复回收站中的文件和目录。原创 2023-08-08 15:58:50 · 1390 阅读 · 0 评论 -
HDFS中的sequence file
sequence file是hadoop提供的一种二进制文件存储格式一条数据称之为record(记录),底层直接以键值对形式序列化到文件中。原创 2023-08-06 00:26:52 · 1204 阅读 · 0 评论 -
HDFS小文件解决方案---archive归档文件命令
hadoop archive可以有效地处理以上的问题,它可以把多个文件归档成为一个文件,归档成一个文件后还可以透明的访问每一个文件。原创 2023-08-05 23:55:12 · 952 阅读 · 0 评论 -
HDFS中的NAMENODE元数据管理(超详细)
文件自身属性信息文件名称、权限、修改时间,文件大小、复制因子、数据块大小文件块位置映射信息记录文件块和DataNode之间的映射信息,即哪个块位于哪个结点上按照存储形式分别为内存元数据和元数据文件两种,分别存在内存和磁盘上SNN可以减小edits logs文件的大小和得到一个最新的fsimage文件,这样也会减小在namenode上的压力。原创 2023-08-05 19:48:13 · 3047 阅读 · 0 评论 -
HDFS架构刨析
HDFS是Hadoop distribute file system的简称,意味:Hadoop分布式文件系统HDFS是Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在HDFS解决的问题就是大数据如何存储,它是横跨在多台计算机上的文件存储系统并且具有高度的容错能力HDFS遵循主从架构namenode是主节点,负责存储和管理文件系统元数据信息,包括namespace目录结构,文件块位置信息等datanode是从节点,负责存储文件具体的数据块。原创 2023-08-03 11:21:32 · 869 阅读 · 0 评论 -
HDFS集群滚动升级以及回滚相关
在hadoop v2中,HDFS支持namenode高可用(HA),使得不停机升级HDFS变的可行。注:从hadoop2.4.0开始才支持滚动升级因此为了在不停机的情况下升级hdfs集群,必须使用HA设置集群在HA集群中,有两个或多个namenode,许多DataNode,一下journalnode和一下zookeepernodeJN相对稳定,在大多数情况下,升级HDFS时不需要升级滚动升级过程中,仅针对NNS和DNS,JNS和ZKNS都没有,升级JN和ZKN可能会导致集群停机。原创 2023-08-02 00:24:21 · 1457 阅读 · 0 评论 -
HDFS中的Federation联邦机制
命名空间(namespace)由文件,块和目录组成的统一抽象的目录树结构。由namenode根据用户操作实时维护树结构块存储层包括两部分:块管理:namenode执行块管理。块管理通过处理注册和定期心跳来提供DataNode集群成员身份。它处理块报告并迟滞与块相关的操作,如创建,删除,修改或获取块位置。它还维护块的位置,副本位置。为未复制的块管理块复制,并在已复制的块中删除存储:DataNode通过在本地文件系统上存储块并提供读/写访问权限来管理存储空间。原创 2023-08-01 23:46:09 · 1295 阅读 · 0 评论 -
HDFS的QJM方案
Quorum Journal Manager(仲裁日志管理器),是Hadoop官方推荐的hdfs HA解决方案之一使用zookeeper中ZKFC来实现主备切换使用Journal Node(JN)集群来实现edits log的共享以达到数据同步的目的。原创 2023-08-01 22:52:40 · 1771 阅读 · 0 评论 -
HDFS集群黑白名单机制
HDFS集群黑白名单机制白名单黑名单白名单所谓白名单指的是允许哪些机器加入到当前的HDFS集群中,是一种准入机制白名单由dfs.hosts参数指定,该参数位于hdfs-site.xml.默认值为空dfs.hosts只想文件,该文件包含允许链接到namanode的主机列表。必须允许指定文件的完整路径名。如果该值为空,则允许所有主机接入黑名单所谓黑名单指的是禁止哪些主机加入到当前的HDFS集群中,是一种禁入机制黑名单由dfs.hosts.exclude参数指定,该参数位于hdfs-site.原创 2023-08-01 09:00:00 · 188 阅读 · 0 评论 -
HDFS Erasure coding-纠删码介绍和原理
纠删码技术简称EC,是一种编码容错技术。最早用于通信行业,数据传输中的数据恢复。它通过对数据进行分块,然后计算出校验数据,是的各个部分的数据产生关联性。当一部分数据块丢失时,可以通过剩余的数据块和校验块计算出丢失的数据块Hadoop3.0之后引入了纠删码技术,它可以提高50%以上的存储利用率,并且保证数据的可靠性。原创 2023-07-31 22:08:13 · 907 阅读 · 0 评论 -
磁盘均衡器:HDFS Disk Balancer
hdfs disk balancer是hadoop3中引入的命令行工具,用于平衡DataNode中的数据在磁盘指甲分布不均匀问题。在这里特别注意,hdfs diskbalancer与hdfsbalancer是不同的。原创 2023-07-31 21:24:06 · 1762 阅读 · 0 评论 -
HDFS高阶优化方案:短路本地读取,节点负载平衡器
Unix domain socket通常被用于本地进程间的通信需求,如某个进程提供服务,其他进程通过Unix domain socket与之进行通信。Unix domain socket(Unix域套接字)是一种用于进程间通信的机制,特别适用于同一台计算机上的进程间通信。这是一种进程间的通讯方式,它使得同一个机器上的两个进程能以socket的方式通讯。总结起来,Unix domain socket是一种本地进程间通信的机制,具有高性能、安全性好,适用于同一台计算机上的进程间通信需求。原创 2023-07-31 12:00:00 · 301 阅读 · 0 评论 -
HDFS中namenode安全模式
hadoop中的安全模式safe mode是namenode的维护状态,在此状态下namenode不允许对文件系统进行任何更改,可以接受读数据请求在namenode启动过程中,首先会从fsimage和edits日志文件加载文件系统状态。然后,等待datanodes汇报可用的block信息。在此期间,namenode保持在安全模式。随着DataNode的block汇报持续进行,当整个系统达到安全标准时候,HDFS自动离开安全模式。在namenode web主页上会显示安全模式是打开还是关闭。原创 2023-07-29 18:23:40 · 1277 阅读 · 0 评论 -
HDFS中数据迁移的使用场景和考量因素
这个命令告诉distcp工具将hdfs://src_cluster:8020/user/data目录下的数据复制到hdfs://dest_cluster:8020/user/data_backup目录下。原创 2023-07-29 16:45:07 · 1694 阅读 · 0 评论 -
HDFS异构存储详解
异构存储是Hadoop2.6.0版本出现的新特性,可以根据各个存储介质读写特性不同进行选择。例如冷热数据的存储,对冷数据采取容量大,读写性能不高的存储介质如机械硬盘,对于热数据,可使用SSD硬盘存储。HDFS支持把数据写入由DataNode管理的对外内存DataNode异步地将内存中数据刷新到磁盘,从而减少代价较高的磁盘IO操作,这种写入被称为Lazy Persist写入该特性从Apache Hadoop 2.6.0开始支持。原创 2023-07-26 15:58:33 · 1256 阅读 · 0 评论 -
HDFS基本操作命令
命令:hadoop fs -getmerge [-n1] [-skip-empty-file]-p选项的行为与unix mkdir -p非常相似,他会沿着路径创建父目录。下载文件到本地文件系统指定目录,localdst必须是目录。和-put功能一样,只不过上传结束,源数据会被删除。-p保留访问和修改时间,所有圈和权限。-p保留访问和修改时间,所有权和权限。dst如果文件不存在,将创建文件。dst 目标文件系统(HDFS)-f 覆盖目标文件(已经存在)-f覆盖目标文件(已存在下)-f覆盖目标文件原创 2023-07-24 15:55:47 · 2371 阅读 · 0 评论 -
Hadoop简介以及集群搭建详细过程
hadoop加群包括两个集群:hdfs集群,yarn集群两个集群逻辑上分离,通常物理上在一起两个集群都是标准的主从架构集群逻辑上分离:两个集群相互之间没有依赖,互不影响物理上在一起:某些角色今晚往往部署在同一台物理服务器上MapReduce集群呢?MapReduce是计算框架、代码层面的组件没有集群之说。原创 2023-07-22 09:30:00 · 1307 阅读 · 0 评论 -
hdfs的读写流程
1.client发起文件上传请求,通过rpc与namenode建立通讯,namenode检查目标文件是否已经存在,父目录是否存在,返回是否可以上传2.client请求第一个block该传输到哪些datanode服务器上3.namenode根据配置文件中指定的备份数量及副本放置策略进行文件分配,返回可用DataNode地址,如:a,b,c。原创 2023-07-19 16:05:55 · 924 阅读 · 0 评论 -
基本的存储架构类型
DAS存储架构也称为直连式存储(Direct-Attached Storage),存储设备是通过电缆(通常是SCSI接口电缆)直接挂到服务器总线上。DAS比较依赖操作系统来进行IO 操作。原创 2023-07-22 15:11:38 · 120 阅读 · 0 评论 -
HDFS的设计目标和重要特性
每个文件的block大小(dfs.bloocksize).和副本系数(dfs.replication)都是可配置的。副本系数可以在文件创建的时候胡指定,也可以在之后通过命令改变。HDFS中的文件在物理上是分块存储的(block),块的大小可以通过配置参数来规定,参数位于hdfs-default.xml中:dfs.blocksize。HDFS会给客户端提供一个统一的抽象目录数,客户端通过客户端,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。原创 2023-07-24 00:05:18 · 1448 阅读 · 0 评论 -
如何模拟实现分布式文件存储
随着存储的进行,数据文件越来越多,与之对应元数据信息也越来越多,如何让用户视觉层面感觉不到元数据的凌乱,同时也与传统的文件系统操作体验保持一致?传统的文件系统拥有所谓的目录数结构,带有层次感的namespace(命名空间),因此可以把分布式文件系统的元数据记录这一块也。副本越多,数据越安全、当然冗余也会越多、通过“不要把鸡蛋放在一个篮子里”的思想,可以把数据丢失的方向分散在各个机器上。当文件被分布式存储在多台机器之后,后续获取文件的时候如何能快速找到文件位于哪台机器上呢。,一台不够就加机器。原创 2023-07-24 00:08:40 · 459 阅读 · 1 评论