![](https://img-blog.csdnimg.cn/20191031162727362.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
hdfs
王义凯_Rick
如果对你有帮助,就请点个赞吧~
展开
-
分布式文件系统:HDFS 核心原理
HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据, 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统。作为大数据生态最重要的组件之一,HDFS充当着大数据时代的数据管理者的角色,为各个分布式计算组件提供了分布式存储的能力。原创 2020-09-04 11:27:15 · 3185 阅读 · 3 评论 -
HDFS的副本数量配置
众所周知,hdfs的默认副本数量是3个,配置在/etc/hadoop/conf/hdfs-site.xml中。如果想修改全局副本数量,只需要修改上面的hdfs-site.xml中的配置然后重启hdfs即可,修改完成后:1. 若hdfs中副本数量没有达到配置的数量则会自动进行备份,此时datanode节点之间会大量复制文件,集群性能会暂时受到影响。2. 若hdfs中副本数量多于配置的数量,比如原来是3,修改为2,则已存在的副本不会被删除,只会对后续新增的文件使用新的配置。如果希望修改配置后,原有多出原创 2019-11-01 16:41:33 · 20434 阅读 · 7 评论 -
HDFS常用管理命令
设置空间Quotahdfs dfsadmin -setSpaceQuota 500g /path/xxx/报告hdfs使用情况hdfs dfsadmin -report 清除空间使用限制hdfs dfsadmin -clrSpaceQuota /user/testname取得目录acl权限hdfs dfs -getfacl /user/testname...原创 2019-11-01 16:08:55 · 1418 阅读 · 0 评论 -
Hadoop3.2.0 HDFS擦除编码
目的复制很昂贵 - HDFS中的默认3x复制方案在存储空间和其他资源(例如,网络带宽)中具有200%的开销。但是,对于I / O活动相对较低的暖和冷数据集,在正常操作期间很少访问其他块副本,但仍会消耗与第一个副本相同的资源量。因此,自然的改进是使用擦除编码(EC)代替复制,其提供相同级别的容错并且具有更少的存储空间。在典型的擦除编码(EC)设置中,存储开销不超过50%。EC文件的复制因子没...转载 2019-11-01 19:36:25 · 1147 阅读 · 0 评论 -
HDFS查看namenode状态
我使用的是CDH6版本,开源版类似。/etc/hadoop/conf/hdfs-site.xmlhdfs-site.xml中配置了HA通过以下命令查看两个namenode的状态:hdfs haadmin -getServiceState namenode202hdfs haadmin -getServiceState namenode177例子:判断nameno...原创 2019-10-31 16:07:00 · 9359 阅读 · 0 评论 -
统计HDFS目录下文件行数及文件大小
统计行数,统计文件大小,统计文件夹下所有文件/文件夹的大小:原创 2019-10-31 16:03:18 · 9122 阅读 · 0 评论 -
HDFS超有用的知识点
不定期更新HDFShdfs异构存储:2.6版本新增在一个集群内实现冷热数据的存储。storagetype:ram_disk,ssd,disk,archive 由快到慢,内存/固态硬盘/硬盘/压缩,默认为disk硬盘。archive为高密度的存储介质。异构存储的步骤:1 datanode通过心跳汇报自身数据存储目录的storagetype给namenode。2 namenod...原创 2019-10-31 15:57:00 · 435 阅读 · 0 评论