大数据学习（三十）JOIN过程中的mapreduce阶段

阿齐（努力打工版）

于 2023-02-11 18:15:26 发布

阅读量466

点赞数 1

文章标签：大数据 mapreduce 学习

本文链接：https://blog.csdn.net/weixin_44702289/article/details/128986175

版权

前言：join分为mapjoin 和 common(普通) join;mapjoin 是没有reduce阶段,只有map阶段,在map阶段进行join操作.（此知识点也会在大表join小表中体现）common join 是在reduce阶段进行join操作,整个过程包括map shuffle reduce.

以下面这段left join 为例，来看看join的map和reduce阶段是如何运行的。

-- goods为商品表 price为价格表
select
   a.goods_id,a.goods_name,b.price
 from goods a 
 left join price b 
   on a.goods_id=b.goods_id

表数据：

执行流程图：（字迹较为潦草，请见谅）

过程详解：

map阶段

1.读取源表的数据，Map输出时候以 Join on 条件中的列为作为key，如果Join有多个关联键，则以这些关联键的组合作为key

2.Map输出的 value 为 join 之后所关心的(select或者where中需要用到的)列；同时在value中还会包含表的 Tag 信息，用于标明此value对应哪个表

3.按照key进行排序

Shuffle阶段

根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中，这样确保两个表中相同的key位于同一个reduce中

Reduce阶段

根据key的值完成join操作，期间通过Tag来识别不同表中的数据。

总结:大家结合上面的例子来学习执行过程会比较容易明白一些，只有搞懂了执行过程，我们才能真正搞明白 hive倾斜和优化。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阿齐（努力打工版）

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

大数据技术之MapReduce

悦分享

02-08

709

MapReduce是一个分布式运算程序的编程框架，是基于Hadoop的数据分析计算的核心框架。MapReduce处理过程分为两个阶段：Map和Reduce。Map负责把一个任务分解成多个任务，Reduce负责把分解后多任务处理的结果汇总。压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时，I/O操作、网络数据传输、Shuffle 和Merge要花大量的时间，尤其是数据规模很大和工作负载密集的情况下，因此，使用数据压缩显得非常重要。

大数据学习之Hadoop——10MapReduce实现Reduce Join(多个文件联合查询)

bingque6535的博客

05-18

532

一. MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题，如果数据量比较小，可以在内存中完成连接。如果数据量比较大，在内存进行连接操会发生OOM。mapreduce join可以用来解决大数据的连接。 1. 思路 1. reduce join 在map阶段, 把关键字作为key输出，并在value中标记出数据是来自data1还是data2。因为在shuffle阶段已经自然按key分组，reduce阶段，判断每一个value是来自data1还是data2,在内

1 条评论您还未登录，请先登录后发表或查看评论

MapReduce的Join操作

清风竹雨

12-07

353

背景前几日在微信的大数据技术交流群中，有水友面试深圳的某家证券公司并将部分笔试题发出来了，广大水友就开始讨论起来了；当然作为吃瓜群众中的一员我不仅吃了瓜还丢了籽！嘿嘿，当然也记录下来了，下面请看题：题目在关系型数据库中的差运算在MR中是如何实现的。假设两个表R、T，现需要计算R-T，找出R中存在T中不存在的数据。分析首先限定了是在 MR环境中。 “关系型数据库中的差运算”说明...

MapReduce实现join操作

最新发布

06-20

本课程设计主要围绕如何使用Hadoop的MapReduce实现SQL中的统计、GROUP BY和JOIN操作，这是一次深入理解大数据处理机制的实践过程。首先，让我们来探讨SQL的统计功能。在SQL中，统计通常涉及到COUNT、SUM、AVG、MAX...

大数据MapReduce文件分发

05-17

"大数据MapReduce文件分发"这个主题涉及到MapReduce作业执行过程中如何有效地分发和管理大量的输入文件到分布式集群的各个节点。下面将详细阐述MapReduce文件分发的相关知识点。 1. **MapReduce工作流程** - **Map...

大数据技术 ODPS MapReduce对外开放实践共20页.pptx

03-26

在MapReduce任务中，Mapper阶段处理DataSource中的数据，Reducer阶段将Mapper的输出作为输入，并生成最终的DataSink。 3. **MapReduce API**：ODPS提供了类似于Hadoop风格的API，但针对结构化数据进行了优化，提供...

mapreduce之join

chunzhi0821的博客

04-25

147

实现思想：MR实现表的join操作，实际上是不同文件的join操作，不同文件通过某些列作为连接字段进行连接。为了实现这一功能，过程如下： 1、在map阶段，将连接的字段组成map的key值（如连接字段有多个，可以将这些字段通过某个分隔符进行连接），将其他字段通过分隔符连接放在map的v...

Join在MapReduce中的实现

zhaoxiaoba123的博客

09-12

313

1、ReduceJoin流程分析数据通过Mapper加载过来，然后经过shuffle阶段，在Reduce端完成真正的Join操作 2、ReduceJion功能的实现 Mapjoin实现原理有些数据比较小，是否有必要经过shuffle,shufflt是大数据中最耗时最耗资源的，能规避shuffle就规避shuffle,也就是说是没有reduce的 Mapjoin功能实现 ...

Hadoop系统入门之Join在MapReduce中的实现

GoodMorning_1992的博客

08-04

287

MapReduce: Interview: 描述如何使用MapReduce来实现join的功能。考察点: 1)MapReduce执行流程。 2)JOIN的底层执行过程。 3)JOIN的多种实现方式: ReduceJoin(shuffle),MapJoin(没有reduce,换句话说就是没有Shuffle)。 resume: 1)最新的项目是写在最前面的 2)写的东西一定要真正的(区分) 3)从你写的东西开始面起，然后逐步扩展==》你的技能/技术的一个功能链条。 ReduceJoin 数据通过Mappe

【Hadoop】【MapReduce】【Join】

weixin_43589563的博客

09-27

168

Reduce Join原理 Map端工作：（1）对不同来源的数据打上标签，标签就是该数据的来源地；（2）连接字段作为key,其他部分和标签作为value Reduce端工作：（1）在reduce()中将同一个key的一组数据根据数据源字段进行分离 Reduce Join实战 1.数据源 1.订单数据表t_order id pid amount 1001 01 1 1002 02 2 1003 03 3 1004 01 4 1005 02 5 1006 03 6 商品信息表t_product pi

MapReduce运行机制和join算法

weixin_46792694的博客

04-08

198

MapReduce运行机制和join算法MapTask运行机制详解以及Map任务的并行度ReduceTask 工作机制以及reduceTask的并行度shuffle阶段数据的压缩机制reduce端join算法实现 MapTask运行机制详解以及Map任务的并行度在mapTask当中，一个文件的切片大小使用默认值是128M，就是跟我们一个block块对应大小一样 MapTask运行的整个过程 1、TextInputFormat读取数据 2、调用map逻辑，默认是一个切片（就是一个block块）对应一个map

MapReduce-Reduce端join操作-步骤分析

Leon_Jinhai_Sun的博客

02-29

239

[案例] Reduce 端实现 JOIN 需求假如数据量巨大，两表的数据是以文件的形式存储在 HDFS 中, 需要用 MapReduce 程序来实现以下 SQL 查询运算 select a.id,a.date,b.name,b.category_id,b.price from t_order a left join t_product b on a.pid = b.id 订单数据...

Map Reduce的join算法的实现

weixin_44319151的博客

11-19

430

##1、reduce端join算法实现这里有两个数据表：orders.txt和product.txt 假如数据量巨大，两表的数据是以文件的形式存储在HDFS中，需要用mapreduce程序来实现一下SQL查询运算： select a.id,a.date,b.name,b.category_id,b.price from t_order a join t_product b on a.pid ...

SQL join中级篇--hive中 mapreduce join方法分析

weixin_30954607的博客

05-18

204

1. 概述。本文主要介绍了mapreduce框架上如何实现两表JOIN。 2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2. 2.1 reduce side join reduce side join是一种最简单的join方式，其主要思想如下：在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/va...

MapReduce：实现join的几种方法

sofuzi的博客

07-28

1万+

reduce side join reduce side join是一种最简单的join方式，其主要思想如下：在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value数据对，对每条数据打一个标签> （tag）,比如：tag=0表示来自文件File1，tag=2表示来自文件File2。即：map阶段的主要任务是对不同文件中的数据打标签。&gt...

MapReduce Join操作解析：MapSide Join与ReduceSide Join

"本文主要介绍了MapReduce框架中的两种JOIN操作：Map Side Join和Reduce Side Join，以及它们在处理分布式数据集关联时的应用和优缺点。" MapReduce是一种用于处理和生成大数据集的分布式计算模型，它由两个主要...