![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MapReduce
逆水行舟如何
热爱开源,喜欢去研究各种源码
展开
-
MapReduce shuffle中快速排序详解
MapReduce中使用的快速排序在经典的快速排序之上进行了一些列的优化,具体优化处理如下:由于快速排序的分割基数(基数左边的数都不大于该基数,而右边的都不小于该基数)选择的好坏直接影响快速排序的性能,最坏的情况是划分过程中是中产生两个极端不对称称的子序列——一个长度为1而另一个长度为n-1,此时有最坏的时间复杂度O(N^2),为了减小出现划分严重不对称的可能性,Hadoop将序列的守卫和中...原创 2020-03-26 16:30:20 · 1007 阅读 · 0 评论 -
MapReduce作业的map task和reduce task调度参数
MapReduce作业可以细分为map task和reduce task,而MRAppMaster又将map task和reduce task分为四种状态: 1、pending:刚启动但尚未向resourcemanager发送资源请求; 2、scheduled:已经向resourceManager发送资源请求,但尚未分配到资源; 3、assigned:已经分配到了资源且正在运行;...原创 2020-03-08 12:58:23 · 496 阅读 · 0 评论 -
MapReduce实现Join操作
1、介绍 在各种实际业务场景中,按照某个关键字对两份数据进行连接是非常常见的。如果两份数据都比较小,那么可以直接在内存中完成连接。如果是大数据量的呢?显然,在内存中进行连接会发生 OOM。MapReduce 可以用来解决大数据量的链接。 MapReduce 的Join操作主要分两类: MapJoin ...原创 2019-10-25 16:08:38 · 644 阅读 · 0 评论 -
MapReduce简单介绍及入门程序
1、MapReduce 入门1.1、什么是 MapReducehadoop 的四大组件:HDFS:分布式存储系统MapReduce:分布式计算系统YARN:hadoop 的资源调度系统Common:以上三大组件的底层支撑组件,主要提供基础工具包和 RPC 框架等MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架1.2、为...原创 2018-12-22 13:48:43 · 424 阅读 · 0 评论 -
MapReduce的Shuffle机制
1、MapReduce的shuffle机制1.1、概述 MapReduce中,mapper阶段处理的数据如何传递给reduce阶段,是MapReduce框架中最关键的一个流程,这个流程就叫shuffle.Shuffle:数据混洗---------(核心机制:数据分区,排序,局部聚合,缓存,拉取,再合并排序)具体来说,就是将MapTask输出的处理数据结果,按照Partitioner...原创 2019-01-07 11:28:33 · 9028 阅读 · 1 评论 -
mapreduce典型应用案例之倒排索引
一、倒排索引的介绍通俗的讲,就是根据单词找到包含这个单词的所有文档。二、mapreduce实现框架1、首先要确定map、reduce、combiner中的key和value是什么类型2、然后确定key和value具体是什么?Map : key为 单词+文件名 value为空combiner : key为单词 value为次数+文件名reduce: key为单...原创 2019-01-03 11:01:02 · 974 阅读 · 0 评论 -
java代码实现mapreduce中的map、reduce、filter方法
实现代码如下:public class MyList { public static void main(String[] args) { List<Integer> aa =new ArrayList<>(); aa.add(1); aa.add(2); aa.add(3); ...原创 2019-01-18 10:57:22 · 1761 阅读 · 0 评论 -
MapReduce自定义排序、分区、分组案例
一、题目数据:由于数据量比较大,放入百度网盘中链接: https://pan.baidu.com/s/13vHZ1v7Rw2Vbb5wZrWX0cA 提取码: 6qug 字段说明班级 学号 姓名 语文 数学 英语1307 7026 邝卓男 95 88 981.求每个学生的总分和平均分,并按总分降序排序2.求每...原创 2019-01-07 19:34:16 · 1710 阅读 · 2 评论 -
MapReduce整合HBase
1、HBase 结合 MapReduce 为什么需要用 mapreduce 去访问 hbase 的数据? ——加快分析速度和扩展分析能力 Mapreduce 访问 hbase 数据作分析一定是在离线分析的场景下应用1.1、HBaseToHDFS 从 hbase 中读取数据,分析之后然后写入 hdfs,代码实现:package com.qyl.mapreduce;...原创 2019-08-28 08:48:01 · 300 阅读 · 0 评论