![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
优化
优化的方法
秋雨ヾ
这个作者很懒,什么都没留下…
展开
-
Spark性能优化总结
近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下面对一些优化的思路方法进行梳理。 优化的目标 保证大数据量下任务运行成功 降低资源消耗 提高计算性能 三个目标优先级依次递减,首要解决的是程序能够跑通大数据量,资源性能尽量进行优化。 基础优化这部分主要对程序进行优化,主要考虑stage、cache、partition等方面。 Stage 在进原创 2020-08-07 20:45:12 · 228 阅读 · 0 评论 -
HDFS小文件优化方法
HDFS小文件弊端 HDFS上每个文件都要在NameNode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用NameNode的内存空间,另一方面就是索引文件过大使得索引速度变慢。 HDFS小文件解决方案 小文件的优化无非以下几种方式: (1)在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS。 (2)在业务处理之前,在...原创 2020-03-19 17:44:16 · 351 阅读 · 0 评论 -
hive的企业级调优
一、表连接优化 将大表放后头 Hive假定查询中最后的一个表是大表。它会将其它表缓存起来,然后扫描最后那个表。因此通常需要将小表放前面,或者标记哪张表是大表:/*streamtable(table_name) */ 使用相同的连接键 当对3个或者更多个表进行join连接时,如果每个on子句都使用相同的连接键的话,那么只会产生一个MapReduce job。 尽量尽早地过滤数据 减少每个...原创 2020-03-19 17:22:36 · 242 阅读 · 0 评论 -
MapReduce的优化
MapReduce跑的慢的原因 MapReduce程序效率的瓶颈在于两点: 1.计算机性能 CPU、内存、磁盘健康、网络 2. I/O 操作优化 (1)数据倾斜 (2) Map和Reduce数设置不合理 (3) Map运行时间太长,导致Reduce等待过久 (4)小文件过多 (5)大量的不可分块的超大文件 (6) Spill次数过多 (7) Merge次数过多等。 MapReduce优化方法 Ma...原创 2020-03-19 16:47:05 · 127 阅读 · 0 评论