mapreduce
文章平均质量分 68
Joy CR
欢迎关注我的公众号: 小秋的博客
https://blog.csdn.net/xiaoqiu_cr
https://github.com/crr121
https://segmentfault.com/u/chenrong_flying
联系邮箱:rongchen633@gmail.com
展开
-
利用mapper实现表的连接
现在有两张表customer和order,需要通过customerid实现customer和order的连接mapperpackage com.cr.JoinMap;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apach...原创 2018-08-19 11:23:57 · 1050 阅读 · 0 评论 -
Hadoop二次排序
1、实现要求:对年份按照升序排列,对气温进行降序排列2、实现步骤1、定义组合keypackage com.cr.secondarySort;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOExc原创 2018-01-09 23:49:49 · 251 阅读 · 0 评论 -
Hadoop采样器实现全排序(报错java.io.EOFException)
利用采样器,mapreducer自动将数据按照从大到小的顺序,根据数据分布的概率,自动分区到不同的区域,之前我们是手动设置分区的范围,将数据分区到不同的分区点击打开链接下面我们采用Hadoop内置类-全排序分区类进行自动分区1、mapper类package com.cr.wordcount;import org.apache.hadoop.io.IntWritable;i原创 2018-01-08 12:43:10 · 1390 阅读 · 1 评论 -
跟踪wordcount计数器的运行信息
1、mapper类package com.cr.wordcount;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;i原创 2018-01-05 17:27:17 · 294 阅读 · 0 评论 -
运行wordcount的时候显示INFO mapreduce.Job: map 0% reduce 0%
错误提示:[xiaoqiu@s150 /home/xiaoqiu]$ hadoop jar wordcounter.jar com.cr.wordcount.WordcountApp hdfs://s150/user/xiaoqiu/data/wc.txt hdfs://s150/user/xiaoqiu/data/out18/01/05 09:12:52 INFO client.RMPro原创 2018-01-05 16:02:43 · 6368 阅读 · 8 评论 -
二次排序解析
1、定义组合keypackage com.cr.com.cr.test;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class ComKey implement原创 2018-01-14 17:02:33 · 830 阅读 · 0 评论 -
Hadoop集群运行wordcount jar包出错
出错提示[xiaoqiu@s151 /home/xiaoqiu]$ hadoop jar HDFSTest.jar com.cr.hdfs.wordcount1.wordcountAPP hdfs: //s150/usr/xiaoqiu/wordcount hdfs://s150/usr/xiaoqiu/wordcount/outputException in原创 2018-01-02 11:31:17 · 484 阅读 · 0 评论 -
MapReduce进行本地的单词统计
1、处理输入文本为对,继承Mapper方法package com.cr.hdfs;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Map原创 2017-12-31 11:23:14 · 528 阅读 · 0 评论 -
reduce端的连接实现
背景:现在有两张表:customer、order,他们有个共同的cid,需要通过cid实现两张表的连接,并且通过cid进行分组排序思路:首先通过mapper从context里面获取到文件切片,从文件切片中得到路径,从而判断是customer.txt,还是order.txt然后依次读取每行内容,并且为每行数据打上一个标签,0表示customer,1表示order,最后组成一个新的组合ke...原创 2018-08-19 11:23:45 · 303 阅读 · 0 评论