- 博客(4)
- 收藏
- 关注
原创 hive优化总结
1.map优化; 2.reduce优化; 3.groupby,orderby算子的改写; 4.join优化,指定小表放内存; 5.数据切分union all再做groupby,减少mr; 6.multi-insert; 7.automatic merge; 8.multi-connt; 9.streamtable; 10.三标联合写法注意点; 11.开启并行parallel; ...
2020-02-27 22:13:13
205
原创 数据库性能监控自动化脚本
数据库sql性能监控脚本,可将本脚本写入job定时执行,用以监控执行缓慢的sql ---TOPDISKReads(totally) select* from(selecta.disk_reads"PhysicalReads", a.executions"Executions", a.disk_reads/dec...
2020-02-27 22:00:03
576
原创 Spark优化总结
一、资源 任何计算都不不开资源的开销,如何把资源利用到极致显得非常重要。 drive process向Resource Manager申请任务资源,yarn给executor进程分配资源,Executors的内存重要分为三种: (1)executor内存(60%):执行内存,执行shuffle(join)的时候,shuffle会用这个内存区来存储数据,如果溢出写磁盘 (2)st...
2020-02-14 16:25:46
253
原创 hive新增字段以后,插入成功但是显示为null
hive新增两个字段,执行脚本没有报错,select出来以后值为空 然后单独执行代码发现,数据不为空 解决方法: 1.show create table table_name;找到该表元数据的存储路径 2.删除该分区路径下的deflate文件: hadoop fs -rm hdfs://ns1/user/hive/warehouse/xxx.db/table_name/dt=2019-0...
2019-01-25 09:22:38
3429
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人