目录
HDFS的Java API 操作
1、介绍
Hadoop是由Java语言编写的,所以可以使用Java API 操作Hadoop文件系统,HDFS Shell本质上就是对Java API的应用,通过编程形式操作HDFS,核心是用HDFS提供的Java API构造一个访问客户端对象,通过客户端对象对HDFS上的文件进行操作。
Hadoop集合了众多文件系统,HDFS只是文件系统的一个实例,这里提供一下Hadoop的官方文档,供读者自行查阅学习。
https://hadoop.apache.org/docs/stable/api/index.html
2、案例——使用Java API操作HDFS
本案例主要演示如何操作HDFS文件系统,包括上传文件,下载文件等。
(1)搭建项目环境
打开IDEA创建一个简单的Maven的工程,如下图。
创建完Maven的工程后,在目录结构中有一个pom .xml的配置文件,这个配置文件是对项目进行管理的核心文件。在这里我们对其进行配置,添加相关依赖,代码如下。
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>cn.itcast</groupId>
<artifactId>HadoopDemo</artifactId>
<version>1.0-SNAPSHOT</version>
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.10.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.10.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.10.1</version>
</dependency>
<dependency>
<groupId>org.apache.zookeeper</groupId>
<artifactId>zookeeper</artifactId>
<version>3.7.1</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.13.2</version>
</dependency>
</dependencies>
<properties>
<maven.compiler.source>8</maven.compiler.source>
<maven.compiler.target>8</maven.compiler.target>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
</project>
这里需要注意,上述代码中作者使用hadoop版本为2.10.1,zookeeper版本为3.7.1,要根据自己版本而修改,然后如果复制代码后标红,需要等待一下,idea会自动下载。
如上图,这里是对于maven的工程的一些配置,让其能够自动下载。
(2)初始化客户端对象与上传文件
在项目src包下的test包下创建cn.itcast.hdfsdemo包,然后在这个包里面创建一个HDFS_uploading的java文件,为了便于查看,作者项目下直接创建一个存放结果的文件textHadoop,相关代码如下图。
package cn.itcast.hdfsdemo;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.IOException;
public class HDFS_uploading {
FileSystem fs = null;
public void init() throws Exception {
//构建配置参数对象:Configuration
Configuration conf = new Configuration();
//设置参数,指定要访问的文件系统的类型:HDFS文件系统
conf.set("fs.defaultFS","hdfs://hadoop01.bgd01:9000");
//设置客户端的访问身份,以root身份访问HDFS
System.setProperty("HADOOP_USER_NAME","root");
//通过FileSystem类的静态方法,获取文件系统客户端对象
fs = FileSystem.get(conf);
}
//将本地文件上传到HDFS
public void testAddFileToHdfs() throws IOException {
//要上传的文件所在本地路径
Path src = new Path("/home/huanganchi/Hadoop/实训项目/HadoopDemo/textHadoop/HdfsDemo/\n" +
"input/text");
//要上传到HDFS的目标路径
Path dst = new Path("/");
//上传文件
fs.copyFromLocalFile(src,dst);
//关闭资源
fs.close();
}
}
(3)从HDFS上下载文件到本地
在cn.itcast.hdfsdemo包下,创建HDFS_download的java文件,代码如下图。
package cn.itcast.hdfsdemo;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Before;
import org.junit.Test;
import java.io.IOException;
public class HDFS_download {
FileSystem fs = null;
@Before
public void init() throws Exception {
//构建配置参数对象:Configuration
Configuration conf = new Configuration();
//设置参数,指定要访问的文件系统的类型:HDFS文件系统
conf.set("fs.defaultFS","hdfs://hadoop01.bgd01:9000");
//设置客户端的访问身份,以root身份访问HDFS
System.setProperty("HADOOP_USER_NAME","root");
//通过FileSystem类的静态方法,获取文件系统客户端对象
fs = FileSystem.get(conf);
}
//从HDFS下载文件到本地
@Test
public void testDownLoadFileToLocal() throws IOException {
//下载文件
fs.copyToLocalFile(new Path("/helloword.txt"), new Path("/home/huanganchi/Hadoop/实训项目/HadoopDemo/textHadoop/HdfsDemo/output"));
//关闭资源
fs.close();
}
}
这里需要注意作者使用的是linux系统,所以上传与下载文件的路径格式与windows不一样,windows的路径格式是这样的“盘://文件//文件”的格式。
(4)目录操作
在cn.itcast.hdfsdemo包下,创建HDFS_operate的java文件,代码如下图。
package cn.itcast.hdfsdemo;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Before;
import org.junit.Test;
import java.io.IOException;
public class HDFS_operate {
FileSystem fs = null;
@Before
public void init() throws Exception {
//构建配置参数对象:Configuration
Configuration conf = new Configuration();
//设置参数,指定要访问的文件系统的类型:HDFS文件系统
conf.set("fs.defaultFS","hdfs://hadoop01.bgd01:9000");
//设置客户端的访问身份,以root身份访问HDFS
System.setProperty("HADOOP_USER_NAME","root");
//通过FileSystem类的静态方法,获取文件系统客户端对象
fs = FileSystem.get(conf);
}
//在HDFS上创建、删除、重命名文件
@Test
public void testMkdirAndDeleteAndRename() throws IOException {
//创建目录
fs.mkdirs(new Path("/a/b/c"));
fs.mkdirs(new Path("/a2/b2/c2"));
//重命名文件或文件夹
fs.rename(new Path("/a"), new Path("/a3"));
//删除文件夹,如果是非空文件夹。参数2必须给值true
fs.delete(new Path("/a2"), true);
//关闭资源
fs.close();
}
}
创建目录
重命名
删除
(5)查看目录中的文件信息
在cn.itcast.hdfsdemo包下,创建HDFS_check的java文件,代码如下图。
package cn.itcast.hdfsdemo;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.Before;
import org.junit.Test;
import java.io.IOException;
public class HDFS_check {
FileSystem fs = null;
@Before
public void init() throws Exception {
//构建配置参数对象:Configuration
Configuration conf = new Configuration();
//设置参数,指定要访问的文件系统的类型:HDFS文件系统
conf.set("fs.defaultFS","hdfs://hadoop01.bgd01:9000");
//设置客户端的访问身份,以root身份访问HDFS
System.setProperty("HADOOP_USER_NAME","root");
//通过FileSystem类的静态方法,获取文件系统客户端对象
fs = FileSystem.get(conf);
}
//查看目录信息,只显示文件
@Test
public void testListFiles() throws IOException {
//获取迭代器对象
//RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
RemoteIterator<LocatedFileStatus> liFiles = fs.listFiles(new Path("/helloword.txt"), true);
//遍历迭代器
while (liFiles.hasNext()) {
LocatedFileStatus fileStatus = liFiles.next();
//打印当前文件名
System.out.println(fileStatus.getPath().getName());
打印当前文件块大小
System.out.println(fileStatus.getBlockSize());
//打印当前文件的权限
System.out.println(fileStatus.getPermission());
//打印当前文件内容的长度
System.out.println(fileStatus.getLen());
//获取文件块信息(块长度、块的datanode信息
BlockLocation[] blockLocations = fileStatus.getBlockLocations();
for (BlockLocation bl : blockLocations) {
System.out.println("blick-length:" + bl.getLength() + "--" + "block-offset:" + bl.getOffset());
String[] hosts = bl.getHosts();
for (String host : hosts) {
System.out.println(host);
}
}
System.out.println("-------------分割线--------------");
}
}
}
参考书籍:
《Hadoop大数据技术原理与应用》P62-P63