![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
xugaopengjeep
活好事少的IT男
展开
-
Hive-面试之Hive数据倾斜的原因及主要解决方法
数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类 Hive倾斜之group by聚合倾斜 分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久; 对一些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进行group by的时候,会将相同的group by字段的reduce任务需要的数据拉取到同一个节点进行聚合, 而当其中每一组的数据量过大时,会出现其他组...原创 2020-01-07 14:43:29 · 820 阅读 · 0 评论 -
哪些方法可以对 Spark 任务进行优化
1通过 spark-env 文件,对 spark 集群进行合理的参数设置 2在程序中,设置合理的 sparkconf 和 set property 3计算量大时,给已经缓存了的 RDD 添加 checkpoint,以减少容错带来的开销 4使用 combine 对小分区进行合并,避免过小的分区造成过多的切换任务开销 ...原创 2019-12-10 15:23:47 · 176 阅读 · 0 评论 -
如何对MapReduce 任务进行优化
1设置合理的 map 和 reduce 的个数 2设置合理的 blocksize 3避免出现数据倾斜 4使用 combine 函数 5对数据进行压缩 6优化 MM 参数() 7将 HDFS 上的小文件合并成 SequenceFile 大文件后再进行文件处理操作 ...原创 2019-11-20 16:39:11 · 193 阅读 · 1 评论 -
写一行 shell 脚本,实现以下功能提取进程名包含 datastore 的进程 id 并强割杀死这些进程。
ps -ef| grep datastore| grep -v grep | awk 'datastore' | xargs kill -9原创 2019-11-11 11:23:39 · 180 阅读 · 0 评论 -
Linux ping不通Baidu
先敲route命令 等一会如果不出现default, 就敲route add default gw 192.168.189.2,192.168.189.2虚拟机的默认网关每个人的或许不一样这个自己去查询原创 2019-06-17 11:00:46 · 753 阅读 · 0 评论 -
Linux服务器同步时间命令
ntpdate ntp2.aliyun.com ntp2.aliyun.com(为阿里服务器2如果不行可以试试ntp3.aliyun.com ntp4.aliyun.com 等等)原创 2019-07-24 09:23:57 · 7185 阅读 · 0 评论