HIVE
文章平均质量分 91
爱技术胜过爱小哥哥
这个作者很懒,什么都没留下…
展开
-
Hive调优实操(不断更新中…)
Hive调优实操(不断更新中…) 前提条件:知道mapreduce的原理及代码实现,知道常用的hivesql(比如join、count(distict))在底层mapreduce是怎么实现的,知道怎么看执行计划,知道yarn的resouce manager webUI的界面数据的含义。 1、explain+语句:查看sql对应的mapreduce的stage 2、看执行计划的STAGE DEPENDENCIES:理清stage的DAG图 3、通过日志给出的track_url查看resouce manager原创 2021-03-03 20:09:51 · 376 阅读 · 1 评论 -
Hive调优(实操案例)
一、避免数据倾斜 表现:由于数据分布不均匀,导致数据大量的集中到某一点上,造成数据热点。 map阶段快,reduce阶段非常慢;有些map很快,有些map很慢;某些reduce很快,某些reduce极慢 原因:1、数据在节点上分布不均匀 2、join时on关键字个别值很大(如null值) 3、count(distinct ),在数据量大的情况下,容易数据倾斜,因为是按group by字段分组,按distinct字段拍寻 解决方法: 1、对应原因1,(原理启动两个MRjob)开启负载均衡:set hive.g原创 2020-08-26 08:10:00 · 414 阅读 · 0 评论 -
当Hive函数、连接语句遇到NULL、如何看hive对你写的sql的实际执行逻辑
一、 avg(col), avg(DISTINCT col) 这个函数的实现逻辑是,对此表中的所有行求和/行数,会忽略NULL值的行 场次 时长 1 60 2 80 3 null 4 70 5 60 用avg(时长)这个函数,得到的是(60+80+70+60)/4 二、一定要注意NULL! hive中的函数对NULL的处理方式,以及在full join关联时(一定要先处理好空值再关联),NULL都是会让你的数据出现意想不到的结果的“点睛之笔” 附上https://cwik原创 2020-07-17 09:04:45 · 414 阅读 · 0 评论