![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MapReduce
逆水行舟如何
热爱开源,喜欢去研究各种源码
展开
-
MapReduce shuffle中快速排序详解
MapReduce中使用的快速排序在经典的快速排序之上进行了一些列的优化,具体优化处理如下: 由于快速排序的分割基数(基数左边的数都不大于该基数,而右边的都不小于该基数)选择的好坏直接影响快速排序的性能,最坏的情况是划分过程中是中产生两个极端不对称称的子序列——一个长度为1而另一个长度为n-1,此时有最坏的时间复杂度O(N^2),为了减小出现划分严重不对称的可能性,Hadoop将序列的守卫和中...原创 2020-03-26 16:30:20 · 1008 阅读 · 0 评论 -
MapReduce作业的map task和reduce task调度参数
MapReduce作业可以细分为map task和reduce task,而MRAppMaster又将map task和reduce task分为四种状态: 1、pending:刚启动但尚未向resourcemanager发送资源请求; 2、scheduled:已经向resourceManager发送资源请求,但尚未分配到资源; 3、assigned:已经分配到了资源且正在运行;...原创 2020-03-08 12:58:23 · 496 阅读 · 0 评论 -
MapReduce实现Join操作
1、介绍 在各种实际业务场景中,按照某个关键字对两份数据进行连接是非常常见的。如果两份数据都比较小,那么可以直接在内存中完成连接。如果是大数据量的呢?显然,在内存中进行连接会发生 OOM。MapReduce 可以用来解决大数据量的链接。 MapReduce 的Join操作主要分两类: MapJoin ...原创 2019-10-25 16:08:38 · 645 阅读 · 0 评论 -
MapReduce简单介绍及入门程序
1、MapReduce 入门 1.1、什么是 MapReduce hadoop 的四大组件: HDFS:分布式存储系统 MapReduce:分布式计算系统 YARN:hadoop 的资源调度系统 Common:以上三大组件的底层支撑组件,主要提供基础工具包和 RPC 框架等 MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架 1.2、为...原创 2018-12-22 13:48:43 · 424 阅读 · 0 评论 -
MapReduce的Shuffle机制
1、MapReduce的shuffle机制 1.1、概述 MapReduce中,mapper阶段处理的数据如何传递给reduce阶段,是MapReduce框架中最关键的一个流程,这个流程就叫shuffle. Shuffle:数据混洗---------(核心机制:数据分区,排序,局部聚合,缓存,拉取,再合并排序) 具体来说,就是将MapTask输出的处理数据结果,按照Partitioner...原创 2019-01-07 11:28:33 · 9030 阅读 · 1 评论 -
mapreduce典型应用案例之倒排索引
一、倒排索引的介绍 通俗的讲,就是根据单词找到包含这个单词的所有文档。 二、mapreduce实现框架 1、首先要确定map、reduce、combiner中的key和value是什么类型 2、然后确定key和value具体是什么? Map : key为 单词+文件名 value为空 combiner : key为单词 value为次数+文件名 reduce: key为单...原创 2019-01-03 11:01:02 · 975 阅读 · 0 评论 -
java代码实现mapreduce中的map、reduce、filter方法
实现代码如下: public class MyList { public static void main(String[] args) { List<Integer> aa =new ArrayList<>(); aa.add(1); aa.add(2); aa.add(3); ...原创 2019-01-18 10:57:22 · 1761 阅读 · 0 评论 -
MapReduce自定义排序、分区、分组案例
一、题目 数据:由于数据量比较大,放入百度网盘中链接: https://pan.baidu.com/s/13vHZ1v7Rw2Vbb5wZrWX0cA 提取码: 6qug 字段说明 班级 学号 姓名 语文 数学 英语 1307 7026 邝卓男 95 88 98 1.求每个学生的总分和平均分,并按总分降序排序 2.求每...原创 2019-01-07 19:34:16 · 1710 阅读 · 2 评论 -
MapReduce整合HBase
1、HBase 结合 MapReduce 为什么需要用 mapreduce 去访问 hbase 的数据? ——加快分析速度和扩展分析能力 Mapreduce 访问 hbase 数据作分析一定是在离线分析的场景下应用 1.1、HBaseToHDFS 从 hbase 中读取数据,分析之后然后写入 hdfs,代码实现: package com.qyl.mapreduce;...原创 2019-08-28 08:48:01 · 301 阅读 · 0 评论