hadoop之分组

最新推荐文章于 2022-10-24 22:30:00 发布

优雅程序员

最新推荐文章于 2022-10-24 22:30:00 发布

阅读量362

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/weixin_45433525/article/details/105173700

版权

本文探讨了在Hadoop中如何通过自定义分组策略来解决求每门课程最高平均分学生的场景。内容包括理解分组组件的工作原理，如何根据需求调整分组和排序字段，以及在MapReduce中实现自定义分组类的方法，以确保相同课程的分数数据被正确分组并排序。

摘要由CSDN通过智能技术生成

分组组件：map-----分组-----reduce reduce接收到的数据是按照map输出的key进行分组的
分组的时候按照key相同的为一组实现writablecomparable接口 comparato
comparato返回为 0的时候默认为一组返回不为0 则分到下一组
如果你想要的分组并不是key中的所有字段这个时候怎么办
年级：3年级3班 3年级2班只想要年级字段自定义分组
分组说白了就是比较的过程按照key比较只要返回0的就会认为1组如果不返回0 就滑到下一组
例如：求出每门课程参考学生成绩最高平均分的学生的信息：课程，姓名和平均分
这道题要求的好就是分组求最大值两件事情：分组排序（shuffle）
要想在map到reduce中间的过程中进行排序得以排序字段为key
map端发出的key：分数
你如果以分数为key造成的结果：相同的分数调用一次reduce 58 英语/计算机/数学
实际需求求得是没门课程平均分最高的
我的需求中相同的科目需要分到一组
map输出的key：科目
map输出的key应该是谁？如果是科目怎么求最大值 reduce进行求这是最佳方案吗？
最佳方案是map发出的key：科目+分数
排序：分数
分组：科目分
如果能做到这个效果就可以求出需求了
如果以科目和分数作为key 必然会造成一个问题：相同科目和相同分数的会到一组中默认
这个时候我们就不可以使用默认的
自定义分组规则
分析：mapreduce中：
map：拆课程分数封装为对象（自定义排序）作为key发送
value：姓名
reduce中：已经分好组（自定义）排好序的
如果按照自定义的分组来：
相同课程为一组，并且这一组数据按照分数进行好了排序倒序
public class MyGroup extends WritableComparator{
//用于比较实现了WritableComparable的类的实例按照课程进行分组
@Override
public int compare(WritableComparable a, WritableComparable b) {
ScoreBean asb=(ScoreBean)a;
ScoreBean bsb=(ScoreBean)b;
//之关系返回0的值
return asb.getCourse().compareTo(bsb.getCourse());
}
}
结果文件：
实际上分组组件有作用但是分组位置不对现在的结果排好序之后进行的分组
现在看到效果排序在前分组在后
实际想要的结果是分好组之后进行排序
在map到reduce过程中会默认的先进行排序在进行分组
===========================
computer 83.2
computer 83.0
===========================
math 83.0
===========================
english 83.0
===========================
math 82.28571428571429
===========================
algorithm 82.28571428571429
algorithm 82.0
===========================
computer 74.42857142857143
===========================
english 74.42857142857143
===========================
algorithm 74.42857142857143
===========================
math 74.42857142857143
===========================
algorithm 72.75
===========================
math 72.75
===========================
computer 72.42857142857143
===========================
english 72.42857142857143
===========================
math 72.42857142857143
===========================
computer 72.42857142857143
===========================
math 69.28571428571429
===========================
english 69.28571428571429
===========================
computer 65.25
computer 65.0
===========================
english 64.18181818181819
===========================
computer 64.11111111111111
===========================
algorithm 62.142857142857146
===========================
english 62.142857142857146
===========================
computer 62.142857142857146
===========================
english 59.57142857142857
english 56.0
===========================
math 56.0
===========================
algorithm 56.0
===========================
computer 56.0
===========================
english 55.0

最终结果：
computer 83.2
computer 83.0
computer 74.42857142857143
computer 65.25
computer 65.0
如果想要这个结果：排序阶段将分组字段纳入排序范围
排序的字段：先按课程再按分数
当既有分组又有排序的时候：排序在前分组在后
排序字段一定要包含分组字段
实际上的分组仅仅是将map输出的结果相邻的进行比较，仅仅会比较前一条数据和后一条数据
如果相同返回为1组如果不相同重新划分组
如果我们想要分组一定要能保证分组字段的数据在相邻的位置
排序：A B C
分组：D F
最终实际排序字段：D F A B C 为了保证相同的分组数据相邻
分组的字段：D F
实际中分组的字段一定是排序字段的前几个
排序：A B C
分组： A AB ABC
sql：topN求解最最常见的问题

reduce函数中的两个坑：
1）Iterable values 只能循环遍历一次指针的每次循环遍历完成指针都会移动到最后一个
2）迭代器中所有对象公用同一个地址 //

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

/**
 * 自定义分组和排序使用的对象
 * 作为map输出的key
 * 
 * @author Administrator
 *
 */
public