Hadoop 实战之运行PutMerge

大家好,今天给大家介绍一下Hadoop的文件系统HDFS,HDFS是一种文件系统,存储着Hadoop应用将要处理的数据,类似于普通的Unix和linux文件系统,不同的是他是实现了google的GFS文件系统的思想,是适用于大规模分布式数据处理相关应用的、可扩展的分布式文件系统。它有以下优点:

1、在分布式存储中,经常会出现节点失效的情况,HDFS可以持续监视,错误检查,容错处理,自动恢复;

2、分布式存储的文件都是非常巨大的,HDFS重新规定了每次I/O的块的大小;

3、对于搜索引擎的业务,大部分都只会在文件尾添加新数据,很少修改已有数据。HDFS做了优化;

4、与应用一起设计的文件系统API对整个系统的弹性和适用性有很大好处;

5、有效的支持多个客户端并行添加同一个文件。

虽然HDFS实现了这么多的功能,但是因为它已经实现为一个开源框架,所以对于程序开发者来说,并不需要了解其底层的文件操作,我们可以通过其提供的一套与linux文件命令类似的命令行工具来进行文件操作。

基本文件命令:

格式为:hadoop fs -cmd <args>

cmd的命名通常与unix对应的命令名相同。例如,文件列表命令: hadoop fs -ls

1、添加目录和文件

HDFS有一个默认的工作目录 /user/$USER,其中$USER是你的登录用户名。不过目录不会自动建立,我们现在用mkdir建立它,我使用的是chen作为用户名。

hadoop fs -mkdir /user/chen

(hadoop的mkdir命令会自动创建父目录,类似于带-p的unix命令)

我们现在放本地文件系统的一个文件进去。

hadoop fs -put example.txt .

最后一个参数是句点,相当于放入了默认的工作目录,等价于 hadoop fs -put example.txt /user/chen

当你把文件放入HDFS上后,你就可以运行Hadoop程序来处理它。

2、检索文件

get命令与put命令相反,它从HDFS复制文件回到本地文件系统。

hadoop fs -get example.txt .

复制到本地的当前工作目录中。

另一种是显示数据,用cat

hadoop fs -cat example.txt

3、删除文件

rm命令

hadoop fs -rm example.txt

也可以用来删除空目录

编程读写HDFS

利用HDFS给我们提供的API,我们同样可以访问它。

在Hadoop中用作文件操作的主类位于org.apache.hadoop.fs软件包中。包括常见的open、read、write、close。Hadoop文件的API起点是FileSystem类,这是一个与文件系统交互的抽象类,我们通过调用Path对象的方法hdfsFile.get(Configuration conf)来取得所需的FileSystem实例,如下我们可以获得与HDFS接口的FileSystem对象:

Path hdfsFile = new Path(arg[1]);

FileSystem hdfs = hdfsFile.getFileSystem(conf);;//获得HDFS的FileSystem对象

如果我们要实现HDFS与本地文件系统的交互,我们还需要获取本地文件系统的FileSystem对象

FileSystem local = FileSystem.getLocal(conf);//获得本地文件系统的FileSystem对象

以下代码讲解了一个例子,我们开发一个PutMerge程序,用于合并本地文件后放入HDFS,因为大文件HDFS处理起来比较容易,所以这个程序经常会在以后的开发中用到

环境:Vmware 8.0 和Ubuntu11.04

第一步:首先创建一个工程命名为HadoopTest.目录结构如下图:

第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件,每次启动虚拟机都要删除/tmp目录下的全部文件,重新格式化namenode,代码如下:

sudo rm -rf /tmp/*
rm -rf /home/tanglg1987/hadoop-0.20.2/logs
hadoop namenode -format
hadoop datanode -format
start-all.sh
hadoop fs -mkdir input 
hadoop dfsadmin -safemode leave

第三步:给start.sh增加执行权限并启动hadoop伪分布式集群,代码如下:

chmod 777 /home/tanglg1987/start.sh
./start.sh 

执行过程如下:

第四步:在/home/tanglg1987/input 目录下新建两个文件file01.txt,file02.txt

file01.txt 内容如下:

hello hadoop

file02.txt 内容如下:

hello world

第五步:新建一个PutMerge.java,代码如下:

package com.baison.action;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class PutMerge {

public static void main(String[] args) throws IOException {
String [] arg={"/home/tanglg1987/input","hdfs://localhost:9100/user/tanglg1987/output/sum.txt"};
Configuration conf = new Configuration();
FileSystem local = FileSystem.getLocal(conf);
Path inputDir = new Path(arg[0]);
Path hdfsFile = new Path(arg[1]); 
try {
FileStatus[] inputFiles = local.listStatus(inputDir);
FileSystem hdfs = hdfsFile.getFileSystem(conf);
FSDataOutputStream out = hdfs.create(hdfsFile);
for (int i=0; i<inputFiles.length; i++) {
System.out.println(inputFiles[i].getPath().getName());
FSDataInputStream in = local.open(inputFiles[i].getPath());
byte buffer[] = new byte[256];
int bytesRead = 0;
while( (bytesRead = in.read(buffer)) > 0) {
out.write(buffer, 0, bytesRead);
}
in.close();
}
out.close();
} catch (IOException e) {
System.out.println("error:: "+e.getMessage());
e.printStackTrace();
}
}
}

第六步:Run On Hadoop并查看结果集,运行结果如下:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值