通过Java代码操作HDFS集群
目录
连接HDFS文件系统------是必备操作(见二、idea连接HDFS)
引言
要想在Windows上操作HDFS,首先需要在Windows上安装HDFS。由于Hadoop官网没有提供Windows下载版本,所以需要对 Hadoop.tar.gz进行两次解压(推荐用7-zip软件),解压完成后添加相应环境变量:HADOOP_HOME、Path
Idea连接HDFS
第一步:引入HDFS依赖
第一种引入方式(jar包)
自己找jar包然后插入程序中(HDFS编程所需jar包都在Hadoop安装目录的share目录下,此处将jar包归类了三个文件夹)
导入到idea中:
第二种引入方式(使用maven引用)
maven项目创建后是如下结构:
其中:
src
main
java:Java源代码
resource:Java中的一些静态紫竹院,如文件、图片、HTML文件等
test
Java:专门用来编写Java Junit单元测试代码
引入项目依赖的时候:
gav....
scope:引入的依赖jar包的一个作用范围
runtime:项目运行过程中也要使用
test:项目在测试过程中才能去使用
provided:项目在编译时和运行时都起作用
maven项目的几个核心的生命周期:
clean:清楚上一次编译的结果
compile:编译源代码
test:执行maven项目的test包下的单元测试代码
package:如果test阶段测试通过,那么将项目打包成对应的包
install