HDFS2.X的新特性

最新推荐文章于 2022-06-07 15:44:55 发布

奋斗的憨憨小S

最新推荐文章于 2022-06-07 15:44:55 发布

阅读量95

点赞数 1

文章标签： hadoop hdfs

本文链接：https://blog.csdn.net/weixin_43796131/article/details/107445634

版权

1.实现两个集群之间的数据拷贝（distcp命令）

bin/hadoop distcp   hdfs://hadoop132/user/shizhenqi/hello.txt   hdfs://hadoop137/user/shizhenqi/hello.txt

这是两个不同集群的虚拟机

2.小文件文档
缺点：每个文件按块存储，会占用NameNode大量的空间，但是小文件所需要的磁盘容量和数据块的大小无关。
把小文件进行整合。因此NameNode把这些小文件看成了一个整体
归档文件命令

#在/user/shizhenqi/input里面由若干个小文件
hadoop archive -archiveName input.har -p /user/shizhenqi/input /user/shizhenqi/output
#这样就会在output里面生成input.har 文件
hadoop fs -ls -R har:///user/shizhenqi/input.har   # 能看到我们归档的小文件

3.回收站
在core-site.xml中添加配置

<property>
        <name>fs.trash.interval</name>
        <value>10</value> #十分钟之后会自动在回收站里面删除
</property>
<property>
        <name>hadoop.http.staticuser.user</name>
        <value>root</value>  #用户权限
</property>

然后在集群的路径/user/root/.Trash/Current就能看到你删除的文件

==#恢复回收站数据==
hadoop fs -mv /user/root/.Trash/Current /user/shizhenqi/input

#清空回收站
hadoop fs -expunge

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

奋斗的憨憨小S

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

HDFS 2.X新特性

悦分享

01-15

把/user/yyds/input目录里面的所有文件归档成一个叫input.har的归档文件，并把归档后文件存储到/user/yyds/output路径下。每个文件均按块存储，每个块的元数据存储在NameNode的内存中，因此HDFS存储小文件会非常低效。例如，一个1MB的文件设置为128MB的块存储，实际使用的是1MB的磁盘空间，而不是128MB。HDFS存档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问。

HDFS 3.x 数据存储新特性-纠删码

最新发布

击水三千里的专栏

12-05

912

EC（纠删码）是⼀种编码技术，能达到和副本机制相同的容错能⼒但是能⼤幅度降低存储成本的机制

参与评论您还未登录，请先登录后发表或查看评论

HDFS新特性Centralized Cache Management介绍

PunC的专栏

03-07

1794

概述 HDFS作为Hadoop底层存储架构实现，提供了高可容错性，以及较高的吞吐量等特性。在Hadoop 2.3版本里，HDFS提供了一个新特性——Centralized Cache Management。该特性能够让用户显式地把某些HDFS文件强制映射到内存中，防止被操作系统换出内存页，提高内存利用效率，有效加快文件访问速度。对于Hive来说，如果对某些SQL查询里需要经常读取

11）Hadoop之HDFS2.x新特性

09-25

164

集群间数据拷贝 scp实现两台远程主机之间数据的拷贝： scp -r hello.txt root@hd102:/user/zy/hello.txt // 推 push scp -r root@hd102:/user/zy/hello.txt hello.txt // 拉 pull scp -r root@hd102:/user/zy/hello.txt root@hd103:/user/z...

9. HDFS 2.X新特性

weixin_45267102的博客

07-07

208

HDFS存档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问。具体说来，HDFS存档文件对内还是一个一个独立文件，对NameNode而言却是一个整体，减少了NameNode的内存。

Hadoop-HDFS2.X新特性介绍

clearlxj的博客

07-01

214

HDFS2.X新特性集群间的数据拷贝 1、scp 实现两个远程主机之间的文件复制； 2、采用 distcp 命令实现两个 Hadoop 集群之间的递归数据复制 bin/hadoop distcp hdfs://haoop113:9000/sanguo hdfs://haoop113:9000/ 小文件存档每个块占元数据150byte，而元数据也会保存到内存中，因此大量的小文件会消耗大量的内存。案例实操 1、需要启动 YARN 进程 start-yarn.sh 2、归档文件把/sanguo/we

13_尚硅谷大数据之HDFS 2.X新特性1

08-03

标题 "13_尚硅谷大数据之HDFS 2.X新特性1" 描述了HDFS 2.X版本中的一些重要改进，包括集群间数据拷贝、Hadoop存档（HAR）以及快照管理。这些特性提升了HDFS的效率和管理能力。 7.1 集群间数据拷贝：在HDFS 2.X中，...

第7章 HDFS 2.X新特性

留不住斜阳的博客

06-07

305

HDFS新特性

HDFS 2.x的特性与改进：YARN的集成与应用

为了克服这些问题，Hadoop 2.x引入了YARN（Yet Another Resource Negotiator）资源管理器，实现了HDFS 2.x与YARN的集成，从而大大提升了Hadoop集群的资源利用率和数据处理效率。 ### 1.1 传统HDFS的局限性在传统...

Hadoop 2.x HDFS新特性

weixin_34198762的博客

01-12

111

2019独角兽企业重金招聘Python工程师标准>>> ...

HDFS2.X新特性

weixin_43497444的博客

02-27

160

1. 集群间拷贝 1．scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/hadoop/hello.txt // 推 push scp -r root@hadoop103:/user/hadoop/hello.txt hello.txt // 拉 pull scp -r root@hadoop103:/user/hadoop/he...

Hadoop2.x新特性：HA、Federation、快照

HYN205的博客

06-17

1042

NameNode HA（1）基于NFS共享存储解决方案（2）基于Qurom Journal Manager（QJM）解决方案NameNode Federation（1）存在多个NameNode，每个NameNode分管一部分目录（2） NameNode共用DataNode一、HDFS的新特性HA(一) HDFS的HA机制 Hadoop 2.2.0 版本之前，NameNode是HDF...

HDFS2的新特性：HA和Federation

converoscar的博客

08-29

2645

一、HDFS的新特性HA (一)HDFS的HA机制 Hadoop 2.2.0 版本之前，NameNode是HDFS集群的单点故障点，每一个集群只有一个NameNode ，如果这个机器或者进程不可用，整个集群就无法使用，直到重启NameNode或者新重启一个NameNode节点。影响HDFS集群不可用主要包括以下两种情况。 (1)类似机器跌宕这样的意外情况将导致集群不可用

hadoop 3.0新特性简单介绍

一亩三分地

07-27

9706

过去十年，Apache Hadoop从无到有，从理论概念演变到如今支撑起若干的生产集群。接下来的十年，Hadoop将继续壮大，并发展支撑新一轮的更大规模、高效和稳定的集群。本文将向大家全面介绍即将到来的Apache Hadoop 3.0新版本——从版本发布状态、背后的故事，到如HDFS erasure coding、YARN federation、NN k-safety等全新的...

HDFS HA功能简介及配置

chyl134528的专栏

10-14

777

Hadoop 0.23.2版本之前, NameNode是HDFS集群的单点故障点，每一个集群只有一个NameNode,如果这个机器或进程不可用，整个集群就无法使用，直到重启NameNode或者新启动一个NameNode节点。影响HDFS集群不可用主要包括以下两种情况： 1、第一种情况是如机器宕机这样的意外情况，将导致集群不可用，只有在重启NameNode之后才可使用。 2、第二种情

HDFS2.0的新特性——联邦机制、HA高可用以及高可用的实现方式

SunRains

01-26

973

联邦当说起联邦，很容易想起例如美国这样的国家，由州组成了一个联合统一的国家，每个州都有各自的宪法和法律，自己行使自己的权利。我们这里的联邦也是类似这种，有了这种机制HDFS集群中可以使用多个独立的NameNode来进行管理以满足HDFS命名空间的水平扩展，这些NameNode分别管理一部分数据，且共享所有的DataNode的存储资源。通俗的讲就是，一个NameNode管理文件系统命名空间的一部分。例如NameNode1管理/usr目录下的所有文件，NameNode2管理/share目录下的所有文件。

Hadoop的优化与发展+HDFS（2.0）新特性

cc的博客

06-18

1650

Hadoop的优化与发展1. Hadoop（1.0）的局限与不足2. 针对其1.0版本的不足改进和提升2.1 Hadoop框架自身的改进和提升2.2 Hadoop生态系统的完善3. HDFS2.03.1 HDFS HA3.2 HDFS 联邦 1. Hadoop（1.0）的局限与不足抽象层次低。需要手工编写代码来完成，有时只是为了实现一个简单的功能，也要手工编写大量的代码。表达能力有限。Hadoop把复杂的分布式编程高度抽象到两个函数Map和Reduce上，在降低使用难度的同时，但也带来了表达能有限的问

HDFS特性和常用功能

学习笔记

05-24

5489

1. 官方文档: http://hadoop.apache.org/docs/r2.9.1/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html 2. 概念: Hadoop Distributed File System Hadoop的分布式文件系统 3. 基本特点: 高容错性,部署在低廉的硬件上,高吞吐量,适用于海量数据的可靠性存储和...

HDFS 2.x新特性：集群间数据拷贝与Hadoop存档

"尚硅谷大数据之HDFS 2.X新特性介绍" 本文主要探讨了HDFS 2.X版本中引入的一些重要特性，包括集群间数据拷贝、Hadoop存档（HAR）以及回收站功能。这些特性提升了HDFS在处理大规模数据时的效率和灵活性。 7.1 集群...