hive数据库优化:
1、尽可能多的过滤掉不需要的数据内容
2、调整表格的存储格式
3、调整表格的map数量
4、调整reduce的数量
5、调整数据倾斜
数据倾斜发生的原因:
表格的计算列中,有大量空值。
key值分配不均。
大小表联合查询时。
对去重的结果进行统计时。
6、使用优化开关
7、处理小文件
hive数据库优化:
1、尽可能多的过滤掉不需要的数据内容
2、调整表格的存储格式
3、调整表格的map数量
4、调整reduce的数量
5、调整数据倾斜
数据倾斜发生的原因:
表格的计算列中,有大量空值。
key值分配不均。
大小表联合查询时。
对去重的结果进行统计时。
6、使用优化开关
7、处理小文件