我的hadoop程序之---------------PutMerge--------

本文详细介绍了如何利用Hadoop框架内的PutMerge代码实例,将本地文件夹中的多个小文件合并成一个大文件,进而放置于HDFS中,以提升大数据处理效率。通过本地文件系统的遍历与HDFS文件系统的读写操作,实现资源的高效整合与迁移。

hadoop in action中的代码:


package bin;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class PutMerge {
	public static void main(String[] args) throws IOException {
		Configuration configuration=new Configuration();
		FileSystem hdfs=FileSystem.get(configuration);//获得hdfs文件系统设置
		FileSystem local=FileSystem.getLocal(configuration);//获得本地文件系统设置
		
		Path inDir=new Path(args[0]);
		Path hdfsFile=new Path(args[1]);
		
		FileStatus[] inputFiles=local.listStatus(inDir);//in里面的本地文件列表,即本地文件所在目录
		FSDataOutputStream outDfs=hdfs.create(hdfsFile);//生成hdfs的输出流,目的文件为设定的输出文件
		int i;
		for (i=0; i < inputFiles.length; i++) {//多个文件逐个读入输入流
			System.out.println(inputFiles[i].getPath().getName());
			FSDataInputStream inDfs=local.open(inputFiles[i].getPath());//打开本地输入流作为dfs的输入流
			byte[] buffer=new byte[256];
			int bytesRead=0;
			while ((bytesRead=inDfs.read(buffer))>0) {
				outDfs.write(buffer, 0, bytesRead);
			}
			inDfs.close();
		}
		outDfs.close();
	}
}

具体的代码如何运行是一个曾经困扰我的问题,当然这是建立在我自己对程序本身理解得不够深刻的基础上的。

代码中写的很清楚在输入路径参数时如何设置,第一个参数显然为一个本地路径,是一个本机的文件夹路径,我们要完成的代码的目的是要将该本地文件夹下的所有小文件合并成一个大文件放到hdfs上从而提高hadoop处理的效能,因为hadoop擅长处理单个大文件相比多个小文件的形式来说,大文件更能够发挥hadoop框架的均分优势。该本地文件夹之中存储着我们需要放到hdfs上的小文件,我们的程序通过读取本地文件夹中的文件,通过hdfs的输入输出流将本地文件读到同一个hdfs的大文件中,(注:虽然是以输出文件形式存放在hdfs中,但要知道在hdfs中本无所谓输入输出文件,输出文件也可以作为输入文件来使用)。所以这里的第二个参数必须是hdfs

所以,我这里参数设定为:/home/xinxin/hadoop-inputfiles/in  hdfs://192.168.1.10:9000/user/xinxin/output/PutMerge_out/out1.txt 

自己设定的hdfs路径也许会给读者一种错觉,觉得这个程序的输出是hdfs的输出,其实不是的,这个文件的输出其实是将本地文件放到hdfs上面去,所以如果eclipse 中的Aguements这样写可能对读者来所更加利于理解。/home/xinxin/hadoop-inputfiles/in  hdfs://192.168.1.10:9000/user/xinxin/input/PutMerge/sum.txt


这操作本质上是一个在hdfs上mkdir一个文件,并在其中放入本地文件夹中要处理的几个文件一样。

以上是个人理解,希望爱好者能够多交流。


-----------------------------------转载请注明出处----------------尊重原创--------------------------

                                                                                                                                             ----欣

评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值