Aɴᴅ ʏᴏᴜ .47-CSDN博客

原创 Hive解决数据倾斜的办法

一、倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。（1）key分布不均匀; （2）业务数据本身的特性; （3）建表时考虑不周; （4）某些SQL语句本身就有数据倾斜; 如何避免：对于key为空产生的数据倾斜，可以对其赋予一个随机值。二、解决方案（1）参数调节： hive.map.aggr = true hive.groupb...

2022-04-02 09:43:24 90

原创 Hive on Spark 环境搭建

Hive引擎介绍： Hive引擎介绍包括：默认MR、tez、spark。问题：企业里面用什么呢？选择取决于，你对性能的要求与数据量本身。一般都希望运行的快一点，生产环境里面更偏向选择spark，tez是完全基于内存的，数据量之后稳定性不够，日常指标（数据量不是很大），日报表（运行过去一天的数据）考虑用spark，数据量很大，运行很长时间，spark运行时间太长，内存扛不住，稳定性不够，某些指标的执行引擎切换为mr tez 平时学习，测试的时候使用。我们当前项目用是spark。...

2022-03-31 15:20:13 502

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人