hadoop 词频统计&&adoop jar jar包名.jar 包名.主类名输入路径(文件的目录,不包括文件本身) 输出路径

最新推荐文章于 2022-12-01 12:03:39 发布

IT菜籽U

最新推荐文章于 2022-12-01 12:03:39 发布

阅读量2k

点赞数

分类专栏： MR hadoop 不包括文件本身) 输出路径

本文链接：https://blog.csdn.net/xiaoshunzi111/article/details/48323591

版权

MR 同时被 3 个专栏收录

79 篇文章 2 订阅

订阅专栏

hadoop

1 篇文章 0 订阅

订阅专栏

不包括文件本身) 输出路径

1 篇文章 0 订阅

订阅专栏

生成jar包完整操作过程 //www.aboutyun.com/thread-7086-1-1.html

Hadoop fs -put README.txt /0909 上传到Hdfs
Hadoop fs -cat README.txt //查看文件内容
Hadoop jar share/hadoopMapReduce/hadoop-mapreduce-examples-2.5.2.jar wordcount /0909 /output0909 //计算词频
Hadoop fs -ls /output0909
Hadop fs -cat /output0909/part-r-00000 //查看结果
Hadop fs -get /output0909/part-r-00000 .点 //数据拿到本地

Sbin/Stop-all.sh
Shutdown -好
Hadoop dsadmin

cd resource/software/hadoop/apache/hadoop-2.5.2-src
find 点 |grep WorkCount
vi 点/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/WorkCount.java
secureCRT 或者 xshell(远程访问集群软件)
在xshell
rz 文件上传
yum install lrzsz
sz 文件//下载

格式:
hadoop jar jar包名.jar 包名.主类名输入路径(文件的目录,不包括文件本身) 输出路径
hadoop jar t.jar sogou.UidCollector /c /cm
hadoop jar cys2.jar sogou.UidCollector /uuid /output0909

hadoop fs -cat /shun/usr |wc -l // 查看数据条目数
需要注意的是 jar包名可以自定义在src下的包名.主类名
输入目录必须提前创建而输入的路径不能提前创建

1 Main()
For(){
Job.waitForCompletion(true);//用于job执行
}
2 TokenizerMapper{//切分器
Mapper< 1 2 3 4> 输入&&输出两对参数(key value)输出两对参数第一对一接受上一过程的结构,第二对存放输出结果

默认用空格做切分
}
3 IntSumReducer{//计数器
Mapper< 1 2 3 4> 输入&&输出两对参数第一对一接受上一过程的结构,第二对存放输出结果
从reduce(Text key ,Iterable<> value ,Context )中传来的key ,Context上下文
....
context.write(key,result);//写入到hdfs中
}