Hive map-side join和reduce-side join

最新推荐文章于 2023-07-05 19:45:00 发布

我是方小磊

最新推荐文章于 2023-07-05 19:45:00 发布

阅读量326

点赞数 1

分类专栏： Hive面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44844089/article/details/117227250

版权

Hive面试专栏收录该内容

12 篇文章 5 订阅

订阅专栏

Hive多表Join的过程（reduce-side join）

HiveSQL底层要转为MapReduce任务执行，那么当进行多表连接的时候，是如何进行表join的呢？

这里搬运这篇博客的例子：https://blog.csdn.net/qiulinsama/article/details/90299426

现在有两个表：page_view和user表
在这里插入图片描述
这两张表都有一个相同的字段userid，根据这个字段可以将两张表连接起来，pv_users表，

在这里插入图片描述

SQL命令是：

SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid);

在这里插入图片描述

过程如下：

由于连接字段为userid，因此映射的键值对Key就为userid。
因为join涉及两张表，来自两个文件（夹），所以需要在map输出的时候进行标记，比如来自第一张表的输出Value就记录为<1, X>，这里的1表示数据来自第一张表。
这样经过shuffle以后，相同的Key被输入到同一个reduce函数，最后根据表的标记对Value数据求笛卡尔积，用第一张表的每条记录和第二张表的每条记录连接，输出就是join的结果。

map-side join

我们刚刚可以看到，reduce-side join的过程是在reduce中完成的。而map-side join则顾名思义就是join的动作在map阶段完成, 不必动用reducer.

但是要用上map-side join必须满足的条件是两个join的表, 必须有一个足够小. 小到可以使用 Hadoop的 DistributedCache 功能把小表缓存到各个执行节点上去.

如果一部分输入dataset size比较小的话，可以将这部分数据replicate到所有的map端(利用DistributedCache拷贝到各个map host上)，在map task执行的时候，会先将这部分数据（小表）读入memory中，每次在map函数遍历大表的时候，会查找memory中对应相同join key的记录集，然后做join。

我是方小磊

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive map-side join和reduce-side join

Hive多表Join的过程（reduce-side join）HiveSQL底层要转为MapReduce任务执行，那么当进行多表连接的时候，是如何进行表join的呢？这里搬运这篇博客的例子：https://blog.csdn.net/qiulinsama/article/details/90299426现在有两个表：page_view和user表这两张表都有一个相同的字段userid，根据这个字段可以将两张表连接起来，pv_users表，SQL命令是：SELECT pv.pageid, u.
复制链接

扫一扫

专栏目录

我是方小磊 CSDN认证博客专家 CSDN认证企业博客

码龄5年

146: 原创

5万+: 周排名

36万+: 总排名

32万+: 访问

: 等级

2902: 积分

86: 粉丝

312: 获赞

75: 评论

1445: 收藏

私信

关注

热门文章

分类专栏

最新评论

pytorch如何导入本地数据集（CIFAR10为例）——详细教程
菜Cai^-^*: 是在class CIFAR100(CIFAR10)这个里面修改而不是class CIFAR10，我之前改错地方了就出现了这个问题
String 和new String 的区别
甜崽团子: 终于明白了
数据库面试题：Redis如何保证数据一致性
m0_56918183: 说的对。主要想说先操作数据库窗口期会短很多，如果先搞缓存也没有别的方案做保障，然后被写入脏数据了可能是永久性不一致。阿里云给的解决方案单体数据库情况下用了一个异步删除缓存的binlog，也就是这里的，它整体还是先操作了数据库。这个跟你说的一样普适大部分，数据一致性要求严格自然舍弃一些性能以及分区容错。一切取决于业务
数据库面试题：Redis如何保证数据一致性
晓~: 其实你想想加锁的意义和 redis 的功能性，其实就知道，加锁肯定损耗性能，redis 又是为了提高性能，怎样都会有影响，还是那句话，有舍才有得。一切以完成业务的目的为出发点。
数据库面试题：Redis如何保证数据一致性
晓~: 不管你是先操作数据库再删除缓存还是先删除缓存再操作数据库，都会有一个窗口期的，区别在于窗口期的时长以及是否满足你业务需求，你业务如果觉得这个数据只要保证最终一致性那只需要用这种旁路缓存的方式就行了，大多数场景都能满足了。你要是业务必须要求实时读取准确度，那这种旁路缓存方式以及什么延时双删都不能满足这种需求。强一致性场景下，要不你就不用缓存，要不你就改成写操作之前先加一个锁，这样读取时先判断是否加锁，没加锁再读取 redis，加锁了就去读取 db。但是上面这种方案其实也有一定的误判率，最好的还是不用缓存，纯用数据库，因为你都需要保证强一致性了，那其实时间和性能对你来说没啥意义，安全第一，所以只要保证读取实时即可，不用考虑时间损耗。还是那句话，CAP 没有完全都满足的场景，只能做取舍。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。