自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 Hive解决数据倾斜的办法

一、 倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。  (1)key分布不均匀;  (2)业务数据本身的特性;  (3)建表时考虑不周;  (4)某些SQL语句本身就有数据倾斜;  如何避免:对于key为空产生的数据倾斜,可以对其赋予一个随机值。二、解决方案  (1)参数调节:   hive.map.aggr = true   hive.groupb...

2022-04-02 09:43:24 90

原创 Hive on Spark 环境搭建

Hive引擎介绍: Hive引擎介绍包括:默认MR、tez、spark。 问题:企业里面用什么呢? 选择取决于,你对性能的要求与数据量本身。 一般都希望运行的快一点,生产环境里面更偏向选择spark,tez是完全基于内存的,数据量之后稳定性不够,日常指标(数据量不是很大),日报表(运行过去一天的数据)考虑用spark,数据量很大,运行很长时间,spark运行时间太长,内存扛不住,稳定性不够,某些指标的执行引擎切换为mr tez 平时学习,测试的时候使用。我们当前项目用是spark。...

2022-03-31 15:20:13 502

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除