由于Hadoop 2.2.0目前还没有好用的Eclipse插件,目前使用Eclipse上编写代码,而后放到Hadoop环境执行的形式。
准备工作:
1、搭建Hadoop环境,创建项目,项目的BuildPath中添加所有Hadoop中的jar包;
2、构造数据集:每一行数据两个号码组成,呼叫号和被呼叫号,生成随机测试数据,将生成的文件放入hdfs中;
import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStream;
import java.util.Random;
public class GenerateTestData {
public static void writeToFile(String fileName) throws Exception{
OutputStream out = new FileOutputStream(new File(fileName));
BufferedOutputStream bo = new BufferedOutputStream(out);
Random rd1 = new Random();
for(int i=0; i<10000; i++){
int j=0;
StringBuffer sb = new StringBuffer("");
sb.append(1);
for(j=1;j<9;j++){
sb.append(rd1.nextInt(10));
//bo.write(rd1.nextInt(10));
}
sb.append(&#