- 博客(2)
- 收藏
- 关注
原创 Hive解决数据倾斜的办法
一、 倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 (1)key分布不均匀; (2)业务数据本身的特性; (3)建表时考虑不周; (4)某些SQL语句本身就有数据倾斜; 如何避免:对于key为空产生的数据倾斜,可以对其赋予一个随机值。二、解决方案 (1)参数调节: hive.map.aggr = true hive.groupb...
2022-04-02 09:43:24
90
原创 Hive on Spark 环境搭建
Hive引擎介绍: Hive引擎介绍包括:默认MR、tez、spark。 问题:企业里面用什么呢? 选择取决于,你对性能的要求与数据量本身。 一般都希望运行的快一点,生产环境里面更偏向选择spark,tez是完全基于内存的,数据量之后稳定性不够,日常指标(数据量不是很大),日报表(运行过去一天的数据)考虑用spark,数据量很大,运行很长时间,spark运行时间太长,内存扛不住,稳定性不够,某些指标的执行引擎切换为mr tez 平时学习,测试的时候使用。我们当前项目用是spark。...
2022-03-31 15:20:13
502
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人