hadoop实例 RandomWriter

最新推荐文章于 2023-05-22 10:30:00 发布

小白的学习笔记

最新推荐文章于 2023-05-22 10:30:00 发布

阅读量1.4k

点赞数

分类专栏： MapReduce/Hadoop

MapReduce/Hadoop 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

随机写例子把 10G（默认）的数据随机的写到dfs中利用 Map/Reduce

每个map输入单个文件名，然后随机写BytesWritable的键和值到DFS顺序文件。map没有产生任何输出，所以reduce没有执行。

产生的数据是可以配置的。配置变量如下

名字	默认值	描述
test.randomwriter.maps_per_host	10	Number of maps/host
test.randomwrite.bytes_per_map	1073741824	Number of bytes written/map
test.randomwrite.min_key	10	minimum size of the key in bytes
test.randomwrite.max_key	1000	maximum size of the key in bytes
test.randomwrite.min_value	0	minimum size of the value
test.randomwrite.max_value	20000	maximum size of the value

这个例子使用了一个很有用的模式来处理Hadoop对于InputSplits的限制。每个输入块只能由一个文件和一个字节范围组成，我们需要控制有多少个maps（我们并没有真正的任何输入），我们创建一个目录，目录下面有一些人为创建的文件，每一个文件都有一个文件名，这个文件名是我们希望map写入的那个文件名。然后，用text line reader和这个假造的输入目录，我们能够产生刚好数量的maps。每个map取得一个对应于文件名的记录，这个文件名是输出产生的目的地。

要运行这个程序，命令行语法为bin/hadoop jar hadoop-*-examples.jar randomwriter <out-dir> [<configuration file>]

代码实例：

参考地址：

http://www.cnblogs.com/xwdreamer/archive/2011/10/17/2296957.html

http://www.hadooper.cn/dct/page/65778

相关命令：

./hadoop-1.2.1/bin/hadoop dfs -rmr output
./hadoop-1.2.1/bin/hadoop dfs -put ~/wordcount_file/* input
./hadoop-1.2.1/bin/hadoop jar ~/wordcount.jar WordCount input output

./hadoop-1.2.1/bin/hadoop dfs -get output/ ./

hadoop dfsadmin -safemode leave

#这个地方使用数字就可以了，而不是乘法，将1024*1024改为1048576，改成100M
./bin/hadoop jar hadoop-examples-1.2.1.jar randomwriter -D test.randomwriter.maps_per_host=1 -D test.randomwrite.bytes_per_map=104857600 fan/rand

./bin/hadoop fs -ls fan/rand

./bin/hadoop jar hadoop-examples-1.2.1.jar sort fan/rand rand-sort