mr环形缓冲区倒排索引反向溢写

最新推荐文章于 2022-10-21 09:00:00 发布

BadManChd

最新推荐文章于 2022-10-21 09:00:00 发布

阅读量2.2k

点赞数

本文链接：https://blog.csdn.net/weixin_43805212/article/details/121961565

版权

发生在环形缓冲区溢写的快排序阶段排序阶段，排序方式是，先按照分区编号Partition进行排序，然后按照key进行排序。
分区分完后，如果同一个分区内数据的key相同就不需要进行排序，
例如一个分区内排序排完的数据为[a,1],[a,2],[c,1],[b,1]

那么因为索引0和1的key是相同的所以他们两个之间是不需要排序的，所以倒排序后的索引和数据为
[c,1],[b,1][a,1],[a,2]

然后往外溢写的时候也是反向溢写，所以输出顺序为[a,2][a,1],[b,1],[c,1]

在这里插入图片描述

总结：就是触发溢写时会将索引进行快排,然后按照排好的key正序进行溢写,如果key相同那就把索引倒排则反向溢写

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

BadManChd

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

设计思想赏析-MapReduce环形缓冲区

weixin_52346300的博客

08-23

2957

这是我的第27篇原创上次一张MapReduce流程图画了我两天，始终不够满意，不够简洁。等有灵感了，再重新试试。在MR、Storm、Spark、Flink这4种大数据计算引擎中，MR是当之...

hadoop里shuffle中的环形缓冲区

weixin_42252211的博客

07-07

5994

最近在看<<Hadoop技术内幕>>里面对shuffle中"奇迹发生的地方"有比较细致的叙述在这整理一下：在mapper端业务逻辑走完后，调用MapOutputCollector.collect()输出结果，其中MapOutputCollector这个接口有两个实现类MapOutputBuffer和DirectMapOutputCollector，后者是在没...

参与评论您还未登录，请先登录后发表或查看评论

环形缓冲区

weixin_33769125的博客

01-20

295

作者：曾志优出处： http://www.cnblogs.com/zengzy 1、环形缓冲区 缓冲区的好处，就是空间换时间和协调快慢线程。缓冲区可以用很多设计法，这里说一下环形缓冲区的几种设计方案，可以看成是几种环形缓冲区的模式。设计环形缓冲区涉及到几个点，一是超出缓冲区大小的的索引如何处理，二是如何表示缓冲区满和缓冲区空，三是如何入队、出队，四是缓冲区中数据长度如何计算。 ps....

（转载）环形缓冲区的实现原理（ring buffer） .

mrwangwang的专栏

10-15

1701

环形缓冲区的实现原理（ring buffer）在通信程序中，经常使用环形缓冲区作为数据结构来存放通信中发送和接收的数据。环形缓冲区是一个先进先出的循环缓冲区，可以向通信程序提供对缓冲区的互斥访问。 1、环形缓冲区的实现原理 环形缓冲区通常有一个读指针和一个写指针。读指针指向环形缓冲区中可读的数据，写指针指向环形缓冲区中可写的缓

正确理解hadoop 2.x 的环形缓冲区: (一) MR环形缓冲区的结构

weixin_30727835的博客

04-07

624

转载：http://blog.csdn.net/HADOOP_83425744/article/details/49560583 http://bigdatadecode.club/MapReduce%E6%BA%90%E7%A0%81%E8%A7%A3%E6%9E%90--%E7%8E%AF%E5%BD%A2%E7%BC%93%E5%86%B2%E5%8C%BA.html 一.什么是Hado...

MapReduce实现倒排索引

Running-小猛的博客

03-25

3029

分为两步进行第一步： package com.jym.hadoop.mr.inverindex; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoo...

MapReduce经典案例-倒排索引的实现流程

m0_51679196的博客

09-03

1304

mapreduce经典案例倒排索引

Hadoop倒排索引（附带完整代码）

Allenzyg的博客

06-10

7458

“倒排索引”是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Inverted Index） 1、实例描述通常情况下，倒排索引由一个单词（或词组）以及相关的文档列表组成，文档列表中的文档或者是标识文档的ID号，或者是指文档所在位置的URL，如图一所示 ...

环形缓冲区-Hadoop Shuffle过程中的利器

qq_20282955的博客

02-10

800

Hadoop在shuffle过程中使用了一个数据结构-环形缓冲区。环形队列是在实际编程极为有用的数据结构，它是一个首尾相连的FIFO的数据结构，采用数组的线性空间,数据组织简单。能很快知道队列是否满为空。能以很快速度的来存取数据。因为有简单高效的原因，甚至在硬件都实现了环形队列。环形队列广泛用于网络数据收发，和不同程序间数据交换（比如内核与应用程序大量交换数据，从硬件接收大量数据）均使用了环...

环形缓冲区实现原理

08-27

在通信程序中，经常使用环形缓冲区作为数据结构来存放通信中发送和接收的数据。环形缓冲区是一个先进先出的循环缓冲区，可以向通信程序提供对缓冲区的互斥访问。

Map阶段环形缓冲区详细分析

qq_42244078的博客

09-10

2371

Map阶段环形缓冲区详细分析这几天不是很忙，抽了点闲着的时间回头看了一下hadoop，看到map阶段的环形缓冲区想到自己刚开始的的时候每太弄明白，这次好好仔细看了一下，顺便把学习成果记录了下来在map阶段，每个map都有一个环形缓冲区，用于存储map的输出。这个环形缓冲区的默认大小是100MB，一旦数据达到我们的阈值0.8（可修改）的时候，会有一个后台线程将内容溢写到磁盘的指定目录下的一个...

大数据知识点学习

大数据知识梳理

04-20

666

大数据知识点

对MapReduce&Yarn的深刻理解

qq_44350553的博客

11-08

275

1.MapReduce详细工作流程之Map阶段 1.首先有一个待处理的文本 ss.txt 假设为200M大小 2.在客户端submit()之前，获取待处理的数据的信息，然后根据参数配置，形成一个任务分配的规划。（默认128m一个数据块） ss.txt 0-128 任务1 ss.txt 128-200 任务2 3.提交信息 Job.split（任务切片信息） wc.jar（需要提交的jar包） Job.xml（xml配置文件）将这三个文件从MapReduce客户端提交到Yarn上的ResourceMan

MR 源码分析

m0_46449152的博客

02-19

206

MapReduce Shuffle详解：https://blog.csdn.net/zhongqi2513/article/details/78321664。

Hadoop

weixin_43708627的博客

02-24

680

1.查看依赖包源码，出现以下错误解决方法链接: link.

hadoop 笔记

weixin_45401571的博客

07-16

1884

hadoop 知识点总结

MapReduce学习笔记(2)

HanSion.Z

04-09

359

MapReduce学习笔记(1):https://blog.csdn.net/hansionz/article/details/105408174 MapReduce学习笔记1. 自定义分区1.1 分区原理1.2 默认分区1.3 自定义分区2. 自定义Combiner2.1 需求2.2 逻辑分析2.3 MR代码2.4 combine小结3. MR压缩3.1 需求3.2 逻辑分析3.3 MR代码4....

大数据—Hadoop（十）_ MapReduce_03、核心框架原理

梳理大数据技术

10-21

852

MapReduce将数据的计算，简单分成Map和Reduce两个阶段。Map阶段，将原本很大的数据集拆分成多个小份，在不同服务器上各个击破。Reduce阶段，则将原本小份的数据结果汇总，进一步计算，得到最终结果。

Hadoop MR程序实现倒排索引详解

"Hadoop编程基于MR程序实现倒排索引示例" 在Hadoop生态系统中，MapReduce是一种分布式计算框架，常用于处理大数据。倒排索引是搜索引擎和信息检索系统中的关键数据结构，用于快速定位关键词在文档中的出现位置。本...