HDFS梳理以及客户端操作HDFS

最新推荐文章于 2023-02-14 10:41:44 发布

sj天问

最新推荐文章于 2023-02-14 10:41:44 发布

阅读量306

点赞数

分类专栏： java Linux Hadoop 文章标签： java hadoop hdfs

本文链接：https://blog.csdn.net/weixin_44314681/article/details/109057723

版权

Hadoop 同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

java

9 篇文章 0 订阅

订阅专栏

Linux

7 篇文章 0 订阅

订阅专栏

HDFS优缺点

1.优点

高容错性
（1）数据自动保存多个副本，通过增加副本的形式，提高容错性。
（2）某一个副本丢失以后，它可以自动恢复
适合处理大规模数据
（1）数据规模：能够处理最高达PB级别的数据；
（2）文件规模：能够处理百万规模以上的文件数量，数量相当之大。
可构建在廉价机器上

2.缺点

不适合低延时数据访问，比如毫秒级的存储数据
无法高效的对大量小文件进行存储

HDFS组成架构

NameNode（nn）：就是Master，它是一个主管、管理者。
（1）管理HDFS的名称空间
（2）配置副本策略；
（3）管理数据块（Block）映射信息；
（4）处理客户端读写请求、
DataNode：就是slave。 NameNode下达命令，DataNode执行实际的操作。
（1）存储实际的数据块；
（2）执行数据块的读写操作
Client 就是客户端
（1）文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后上传；
（2）与NameNode交互，获取文件位置信息；
（3）与DataNode交互，读取或写入数据；
（4）Client提供一些命令来管理HDFS，比如NameNode格式化；
（5）Client可以通过一些命令来访问HDFS，例如对HDFS增删改查；
Secondary NameNode : 并非NameNode的热备。当NameNode挂掉的时候，他并不能马上替换NameNode比提供服务。
（1）辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode；
（2）在紧急情况下，可辅助恢复NameNode。

HDFS文件块大小

HDFS中的文件在物理上是分块存储，块的大小可以通过配置参数（dfs.blocksize)来规定，默认大小在hadoop3.x版本中是128M，hadoop2.x也是128M，hadoop1.x则是64M
寻址时间为传输时间的1%时，则为最佳状态

块为什么不能设计的太大也不能设计的太小？

HDFS的块如果设计的很小，会增加寻址时间，程序一直在找块开始的位置；
如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序处理这块数据时，会很非常慢。

HDFS块的大小设置主要取决于磁盘传输速率。

HDFS的Shell操作

1）基本语法

hadoop fs 具体命令 OR hdfs dfs 具体命令
两个是完全相同的。
2）常用命令实操
（0）启动Hadoop集群（方便后续的测试）

[atguigu@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh
[atguigu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh

（1）-help：输出这个命令参数

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -help rm

（2）-ls: 显示目录信息

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -ls /

（3）-mkdir：在HDFS上创建目录

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -mkdir -p /sanguo/shuguo

（4）-moveFromLocal：从本地剪切粘贴到HDFS

[atguigu@hadoop102 hadoop-3.1.3]$ touch kongming.txt
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs  -moveFromLocal  ./kongming.txt /sanguo/shuguo

（5）-appendToFile：追加一个文件到已经存在的文件末尾

[atguigu@hadoop102 hadoop-3.1.3]$ touch liubei.txt
[atguigu@hadoop102 hadoop-3.1.3]$ vi liubei.txt

输入

san gu mao lu
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -appendToFile liubei.txt 
/sanguo/shuguo/kongming.txt

（6）-cat：显示文件内容

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -cat /sanguo/shuguo/kongming.txt

（7）-chgrp 、-chmod、-chown：Linux文件系统中的用法一样，修改文件所属权限

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs  -chmod  666  /sanguo/shuguo/kongming.txt
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs  -chown  atguigu:atguigu   /sanguo/shuguo/kongming.txt

（8）-copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -copyFromLocal README.txt /

（9）-copyToLocal：从HDFS拷贝到本地

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -copyToLocal /sanguo/shuguo/kongming.txt ./

（10）-cp ：从HDFS的一个路径拷贝到HDFS的另一个路径

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -cp /sanguo/shuguo/kongming.txt /zhuge.txt

（11）-mv：在HDFS目录中移动文件

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -mv /zhuge.txt /sanguo/shuguo/

（12）-get：等同于copyToLocal，就是从HDFS下载文件到本地

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -get /sanguo/shuguo/kongming.txt ./

（13）-getmerge：合并下载多个文件，比如HDFS的目录 /user/atguigu/test下有多个文件:log.1, log.2,log.3,…

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -getmerge /user/atguigu/test/* ./zaiyiqi.txt

（14）-put：等同于copyFromLocal

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -put ./zaiyiqi.txt /user/atguigu/test/

（15）-tail：显示一个文件的末尾

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -tail /sanguo/shuguo/kongming.txt

（16）-rm：删除文件或文件夹

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -rm /user/atguigu/test/jinlian2.txt

（17）-rmdir：删除空目录

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -mkdir /test
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -rmdir /test

（18）-du统计文件夹的大小信息

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -du -s -h /user/atguigu/test

2.7 K /user/atguigu/test

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -du  -h /user/atguigu/test
1.3 K  /user/atguigu/test/README.txt
15     /user/atguigu/test/jinlian.txt
1.4 K  /user/atguigu/test/zaiyiqi.txt

（19）-setrep：设置HDFS中文件的副本数量

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -setrep 5 /README.txt

这里设置的副本数只是记录在NameNode的元数据中，是否真的会有这么多副本，还得看DataNode的数量。因为目前只有3台设备，最多也就3个副本，只有节点数的增加到至少5台时，副本数才能达到5。
（20）解决web页面中操作没有权限问题，
hadoop默认情况下开启了权限检查，且默认使用dir.who作为http访问的静态用户,因此可通过关闭权限检查或者配置http访问的静态用户为atguigu，二选一即可.
在core-site.xml中修改http访问的静态用户为atguigu

<property>
        <name>hadoop.http.staticuser.user</name>
        <value>atguigu</value>
 </property>

在hdfs-site.xml中关闭权限检查

<property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
</property>

HDFS客户端操作

首先配好hadoop在win环境下的环境变量

4）创建一个Maven工程
5）导入相应的依赖坐标+日志添加

<dependencies>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.12</version>
    </dependency>
    <dependency>
        <groupId>org.apache.logging.log4j</groupId>
        <artifactId>log4j-slf4j-impl</artifactId>
        <version>2.12.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>3.1.3</version>
    </dependency>
</dependencies>

在项目的src/main /resources目录下，新建一个文件，命名为“log4j2.xml”，在文件中填入

<?xml version="1.0" encoding="UTF-8"?>
<Configuration status="error" strict="true" name="XMLConfig">
    <Appenders>
        <!-- 类型名为Console，名称为必须属性 -->
        <Appender type="Console" name="STDOUT">
            <!-- 布局为PatternLayout的方式，
            输出样式为[INFO] [2018-01-22 17:34:01][org.test.Console]I'm here -->
            <Layout type="PatternLayout"
                    pattern="[%p] [%d{yyyy-MM-dd HH:mm:ss}][%c{10}]%m%n" />
        </Appender>

    </Appenders>

    <Loggers>
        <!-- 可加性为false -->
        <Logger name="test" level="info" additivity="false">
            <AppenderRef ref="STDOUT" />
        </Logger>

        <!-- root loggerConfig设置 -->
        <Root level="info">
            <AppenderRef ref="STDOUT" />
        </Root>
    </Loggers>

</Configuration>

接下来是用客户端操作HDFS

package com.atguigu.hdfs;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Arrays;


/**
 * 客户端性质的开发.
 *   1. 创建客户端对象
 *   2. 调用相应的方法实现相应的功能
 *   3. 关闭客户端对象
 */
public class HdfsClientDemo {

    /**
     * 查看文件的详情
     */
    @Test
    public void testListFiles() throws IOException {
        RemoteIterator<LocatedFileStatus> listFiles =
                fs.listFiles(new Path("/"), true);
        while(listFiles.hasNext()){
            LocatedFileStatus file = listFiles.next();
            //获取每个文件的详情
            System.out.println("文件路径:" + file.getPath());
            System.out.println("文件权限:" + file.getPermission());
            System.out.println("文件主人:" + file.getOwner());
            System.out.println("文件的组:" + file.getGroup());
            System.out.println("文件大小:" + file.getLen());
            System.out.println("副本数量:" + file.getReplication());
            System.out.println("文件块大小:" + file.getBlockSize());

            //获取文件的块
            System.out.println("文件块位置:" + Arrays.toString(file.getBlockLocations()));


            System.out.println("===========================================");

        }
    }



    /**
     * 判断文件还是文件夹
     */

    @Test
    public void testListStatus() throws IOException {
        FileStatus[] fileStatus = fs.listStatus(new Path("/"));
        for (FileStatus status : fileStatus) {
            if(status.isFile()){
                System.out.println("File:" + status.getPath());
            }else{
                System.out.println("Dir:" + status.getPath());
            }
        }
    }

    /**
     * 删除
     */
    @Test
    public void testDelete() throws IOException {
        //fs.delete(new Path("/shasha.txt"),false);
        //fs.delete(new Path("/wcinput"),true);
        fs.delete(new Path("/abc"),false);
    }


    /**
     * 文件更名  移动
     */
    @Test
    public void testmv() throws IOException {
        fs.rename(new Path("/wcinput/README.txt"),new Path("/atguigu/RE.txt"));
    }

    /**
     * 文件下载
     */
    @Test
    public void  testDownload() throws IOException {
        fs.copyToLocalFile(false,
                new Path("/wcinput/README.txt"),
                new Path("E:\\asource\\README.txt"),
                true);
    }



    /**
     * 参数优先级:
     *
     * configuration对象中设置的  > xxx-site.xml   > xxx-default.xml
     */

    /**
     * 文件上传
     */
    @Test
    public void testUpload() throws IOException {
        fs.copyFromLocalFile(false,true,
                new Path("E:\\asource\\jiajia.txt"),
                new Path("/atguigu"));
    }

    /**
     * 创建目录
     *
     */
    @Test
    public void testMkdir() throws IOException {
        fs.mkdirs(new Path("/atguigu"));
    }






    private FileSystem fs ;
    private URI uri ;
    private Configuration conf ;
    private String user = "atguigu";


    /**
     * @Before注解标注的方法会在每个@Test方法执行之前执行.
     *
     */
    @Before
    public void init() throws IOException, InterruptedException {
        uri = URI.create("hdfs://hadoop102:8020");
        conf = new Configuration();
        //添加配置:
        conf.set("dfs.replication","2");

        fs = FileSystem.get(uri,conf,user);
    }

    /**
     * @After注解标注的方法会在每个@Test方法执行之后执行.
     */
    @After
    public void close() throws IOException {
        fs.close();
    }




    /**
     * 获取客户端对象
     */
    @Test
    public  void testHdfsClient() throws URISyntaxException, IOException, InterruptedException {
        /**
         * 三个参数:
         * 1. URI : 指定hdfs的位置,实际上就是namenode的地址
         *
         * 2. Configuration : 用于添加配置.
         *
         * 3. User: 指定操作hdfs的用户
         */
        //URI uri = new URI("hdfs://hadoop102:8020");
        URI uri = URI.create("hdfs://hadoop102:8020");

        Configuration conf  = new Configuration();

        String user = "atguigu";

        FileSystem fs = FileSystem.get(uri,conf,user) ;

        System.out.println(fs);
        System.out.println(fs.getClass()); //org.apache.hadoop.hdfs.DistributedFileSystem

        fs.close();

    }
}

sj天问

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS梳理以及客户端操作HDFS

HDFS优缺点1.优点高容错性（1）数据自动保存多个副本，通过增加副本的形式，提高容错性。（2）某一个副本丢失以后，它可以自动恢复适合处理大规模数据（1）数据规模：能够处理最高达PB级别的数据；（2）文件规模：能够处理百万规模以上的文件数量，数量相当之大。可构建在廉价机器上2.缺点不适合低延时数据访问，比如毫秒级的存储数据无法高效的对大量小文件进行存储HDFS组成架构NameNode（nn）：就是Master，它是一个主管、管理者。（1）管理HDFS的名称空间（2）配
复制链接

扫一扫

专栏目录