MapReduce
文章平均质量分 58
翱翔的江鸟
转行萌新学习中
github地址:https://github.com/wxfghy
展开
-
MapReduce练习之Top k
1. 输入文件格式algorithm,liuyifei,75,85,62,48,54,96,15 computer,huangjiaju,85,75,86,85,85 english,liuyifei,76,95,86,74,68,74,48 english,huangdatou,48,58,67,86,15,33,85 algorithm,huanglei,76,95,86,74,6...原创 2018-06-04 16:19:55 · 770 阅读 · 0 评论 -
MapReduce简介和wordcount
MapReduce简介WordCountMyMapMyReduceMyJobpackage com;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.ha...原创 2018-05-29 07:13:13 · 740 阅读 · 0 评论 -
MapReduce练习之共同好友
0. 问题通过mapreduce找出用户A,B,C…中每两个人所共同拥有的好友都有谁输入文件 A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A...原创 2018-06-05 13:51:47 · 554 阅读 · 1 评论 -
MapReduce练习之倒排索引
0. 问题TF-IDF实现统计多个文档中一个单词出现的频数和出现在哪个文档中 在map中读取当前文档的每一行数据,得到当前文档路径mapkey(单词:文档路径),mapvalue(数值1)在map端设置Combiner类(整合数据,减少向reduce端传输数据的网络开销)将map的输出重新组合输出<单词,文档路径:单词频数>输入文件为三篇txt英文文档输出文件格式为 ...原创 2018-06-06 10:26:02 · 329 阅读 · 0 评论 -
Windows下idea中实现Hadoop本地测试功能
0. 目标Hadoop默认没有windows版本Hadoop集群部署在Linux虚拟机上,通过idea编写的MR代码和输入文件要打包jar发送给Linux为便于测试MR代码是否正确, 希望在idea上运行MR1. 解压hadoop到windows硬盘中 https://blog.csdn.net/wxfghy/article/details/80450469 win...原创 2018-05-31 11:25:34 · 3129 阅读 · 0 评论 -
MapReduce练习之二次排序
0. 运行环境idea+hadoop 2.9.0 本地调试, 各个类分开写输入文件格式如下,输出以字母分区,分区内部排序,也可以不分区,按ABC排序 A 1 B 2 C 7 A 9 A 4 C 5 B 1 B 91. MyJob主方法所在类package com;import org.apache.hadoop.conf.Configuration;impo...原创 2018-05-31 16:16:37 · 565 阅读 · 1 评论