大数据之Hive：Hive优化

最新推荐文章于 2023-10-24 18:38:50 发布

浊酒南街

最新推荐文章于 2023-10-24 18:38:50 发布

阅读量358

点赞数 2

分类专栏： # 大数据系列二

本文链接：https://blog.csdn.net/weixin_43597208/article/details/117715113

版权

大数据系列二专栏收录该内容

110 篇文章 0 订阅

订阅专栏

1）MapJoin

join就是需要把两份数据关联起来，如果一份数据比较大（t1），一份比较小(t2)，可以采用mapjoin，具体实现：把t2的全部数据一次性加载，t1的数据一条条处理，这样就没有shuffle过程，不需要reduce，是相比于reducejoin的效率要高。适合大表和小表进行关联。
如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join，即：在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join，避免reducer处理。默认是打开的，不要关闭。

2）行列过滤

列处理：在SELECT中，只拿需要的列（因为在很多时候，我们存储数据的方式是基于列存储的），如果有，尽量使用分区过滤，少用SELECT *。
行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤。

3）列式存储

4）采用分区技术

5）合理设置Map数

mapred.min.split.size: 指的是数据的最小分割单元大小；min的默认值是1B
mapred.max.split.size: 指的是数据的最大分割单元大小；max的默认值是256MB
通过调整max可以起到调整map数的作用，减小max可以增加map数，增大max可以减少map数。 max(0,min(块大小，Long的最大值))
需要提醒的是，直接调整mapred.map.tasks这个参数是没有效果的。
如果设置：
org.apache.hadoop.hive.ql.io.HiveInputFormat 上述参数是有效果的

6）合理设置Reduce数

Reduce个数并不是越多越好
（1）过多的启动和初始化Reduce也会消耗时间和资源；
（2）另外，有多少个Reduce，就会有多少个输出文件，如果生成了很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；
在设置Reduce个数的时候也需要考虑这两个原则：处理大数据量利用合适的Reduce数；使单个Reduce任务处理数据量大小要合适；

浊酒南街

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据之Hive：Hive优化

目录1）MapJoin2）行列过滤3）列式存储4）采用分区技术5）合理设置Map数6）合理设置Reduce数1）MapJoinjoin就是需要把两份数据关联起来，如果一份数据比较大（t1），一份比较小(t2)，可以采用mapjoin，具体实现：把t2的全部数据一次性加载，t1的数据一条条处理，这样就没有shuffle过程，不需要reduce，是相比于reducejoin的效率要高。适合大表和小表进行关联。如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成C
复制链接

扫一扫