大数据技术之Hadoop学习（三）

最新推荐文章于 2024-09-21 16:54:35 发布

雨诺风

最新推荐文章于 2024-09-21 16:54:35 发布

阅读量586

点赞数

分类专栏：大数据技术之Hadoop学习文章标签： hadoop 大数据学习 java

本文链接：https://blog.csdn.net/weixin_63507910/article/details/128524812

版权

大数据技术之Hadoop学习专栏收录该内容

12 篇文章 12 订阅

订阅专栏

HDFS的Java API 操作

1、介绍

2、案例——使用Java API操作HDFS

HDFS的Java API 操作

1、介绍

Hadoop是由Java语言编写的，所以可以使用Java API 操作Hadoop文件系统，HDFS Shell本质上就是对Java API的应用，通过编程形式操作HDFS，核心是用HDFS提供的Java API构造一个访问客户端对象，通过客户端对象对HDFS上的文件进行操作。

Hadoop集合了众多文件系统，HDFS只是文件系统的一个实例，这里提供一下Hadoop的官方文档，供读者自行查阅学习。

https://hadoop.apache.org/docs/stable/api/index.html

2、案例——使用Java API操作HDFS

本案例主要演示如何操作HDFS文件系统，包括上传文件，下载文件等。

（1）搭建项目环境

打开IDEA创建一个简单的Maven的工程，如下图。

创建完Maven的工程后，在目录结构中有一个pom .xml的配置文件，这个配置文件是对项目进行管理的核心文件。在这里我们对其进行配置，添加相关依赖，代码如下。

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>cn.itcast</groupId>
    <artifactId>HadoopDemo</artifactId>
    <version>1.0-SNAPSHOT</version>
    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.10.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.10.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.10.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.zookeeper</groupId>
            <artifactId>zookeeper</artifactId>
            <version>3.7.1</version>
        </dependency>

        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.13.2</version>
        </dependency>

    </dependencies>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    </properties>

</project>

这里需要注意，上述代码中作者使用hadoop版本为2.10.1，zookeeper版本为3.7.1，要根据自己版本而修改，然后如果复制代码后标红，需要等待一下，idea会自动下载。

如上图，这里是对于maven的工程的一些配置，让其能够自动下载。

（2）初始化客户端对象与上传文件

在项目src包下的test包下创建cn.itcast.hdfsdemo包，然后在这个包里面创建一个HDFS_uploading的java文件，为了便于查看，作者项目下直接创建一个存放结果的文件textHadoop，相关代码如下图。

package cn.itcast.hdfsdemo;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import java.io.IOException;

public class HDFS_uploading {
    FileSystem fs = null;
    public void init() throws Exception {
        //构建配置参数对象：Configuration
        Configuration conf = new Configuration();
        //设置参数，指定要访问的文件系统的类型：HDFS文件系统
        conf.set("fs.defaultFS","hdfs://hadoop01.bgd01:9000");
        //设置客户端的访问身份，以root身份访问HDFS
        System.setProperty("HADOOP_USER_NAME","root");
        //通过FileSystem类的静态方法，获取文件系统客户端对象
        fs = FileSystem.get(conf);
    }
    //将本地文件上传到HDFS
    public void testAddFileToHdfs() throws IOException {
        //要上传的文件所在本地路径
        Path src = new Path("/home/huanganchi/Hadoop/实训项目/HadoopDemo/textHadoop/HdfsDemo/\n" +
                "input/text");
        //要上传到HDFS的目标路径
        Path dst = new Path("/");
        //上传文件
        fs.copyFromLocalFile(src,dst);
        //关闭资源
        fs.close();
    }
}

（3）从HDFS上下载文件到本地

在cn.itcast.hdfsdemo包下，创建HDFS_download的java文件，代码如下图。

package cn.itcast.hdfsdemo;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;

public class HDFS_download {
    FileSystem fs = null;
    @Before
    public void init() throws Exception {
        //构建配置参数对象：Configuration
        Configuration conf = new Configuration();
        //设置参数，指定要访问的文件系统的类型：HDFS文件系统
        conf.set("fs.defaultFS","hdfs://hadoop01.bgd01:9000");
        //设置客户端的访问身份，以root身份访问HDFS
        System.setProperty("HADOOP_USER_NAME","root");
        //通过FileSystem类的静态方法，获取文件系统客户端对象
        fs = FileSystem.get(conf);
    }
    //从HDFS下载文件到本地
    @Test
    public void testDownLoadFileToLocal() throws IOException {
        //下载文件
        fs.copyToLocalFile(new Path("/helloword.txt"), new Path("/home/huanganchi/Hadoop/实训项目/HadoopDemo/textHadoop/HdfsDemo/output"));
        //关闭资源
        fs.close();
    }
}

这里需要注意作者使用的是linux系统，所以上传与下载文件的路径格式与windows不一样，windows的路径格式是这样的“盘://文件//文件”的格式。

（4）目录操作

在cn.itcast.hdfsdemo包下，创建HDFS_operate的java文件，代码如下图。

package cn.itcast.hdfsdemo;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;

public class HDFS_operate {
    FileSystem fs = null;
    @Before
    public void init() throws Exception {
        //构建配置参数对象：Configuration
        Configuration conf = new Configuration();
        //设置参数，指定要访问的文件系统的类型：HDFS文件系统
        conf.set("fs.defaultFS","hdfs://hadoop01.bgd01:9000");
        //设置客户端的访问身份，以root身份访问HDFS
        System.setProperty("HADOOP_USER_NAME","root");
        //通过FileSystem类的静态方法，获取文件系统客户端对象
        fs = FileSystem.get(conf);
    }
    //在HDFS上创建、删除、重命名文件
    @Test
    public void testMkdirAndDeleteAndRename() throws IOException {
        //创建目录
        fs.mkdirs(new Path("/a/b/c"));
        fs.mkdirs(new Path("/a2/b2/c2"));
        //重命名文件或文件夹
        fs.rename(new Path("/a"), new Path("/a3"));
        //删除文件夹，如果是非空文件夹。参数2必须给值true
        fs.delete(new Path("/a2"), true);
        //关闭资源
        fs.close();
    }
}

创建目录

重命名

删除

（5）查看目录中的文件信息

在cn.itcast.hdfsdemo包下，创建HDFS_check的java文件，代码如下图。

package cn.itcast.hdfsdemo;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;

public class HDFS_check {
    FileSystem fs = null;
    @Before
    public void init() throws Exception {
        //构建配置参数对象：Configuration
        Configuration conf = new Configuration();
        //设置参数，指定要访问的文件系统的类型：HDFS文件系统
        conf.set("fs.defaultFS","hdfs://hadoop01.bgd01:9000");
        //设置客户端的访问身份，以root身份访问HDFS
        System.setProperty("HADOOP_USER_NAME","root");
        //通过FileSystem类的静态方法，获取文件系统客户端对象
        fs = FileSystem.get(conf);
    }
    //查看目录信息，只显示文件
    @Test
    public void testListFiles() throws IOException {
        //获取迭代器对象
        //RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
        RemoteIterator<LocatedFileStatus> liFiles = fs.listFiles(new Path("/helloword.txt"), true);

        //遍历迭代器
        while (liFiles.hasNext()) {
            LocatedFileStatus fileStatus = liFiles.next();

            //打印当前文件名
            System.out.println(fileStatus.getPath().getName());
            打印当前文件块大小
            System.out.println(fileStatus.getBlockSize());
            //打印当前文件的权限
            System.out.println(fileStatus.getPermission());
            //打印当前文件内容的长度
            System.out.println(fileStatus.getLen());
            //获取文件块信息（块长度、块的ｄａｔａｎｏｄｅ信息
            BlockLocation[] blockLocations = fileStatus.getBlockLocations();
            for (BlockLocation bl : blockLocations) {
                System.out.println("blick-length:" + bl.getLength() + "--" + "block-offset:" + bl.getOffset());
                String[] hosts = bl.getHosts();
                for (String host : hosts) {
                    System.out.println(host);
                }
            }
            System.out.println("-------------分割线--------------");
        }
    }
}