- 博客(4)
- 资源 (5)
- 收藏
- 关注
原创 org.apache.hadoop.ipc.Client: Retrying connect to server
这个问题导致jps查看结点进程时发现找不到NodeManager或一段时间后消失,网上查找了很多博客,因hadoop版本不一样且出错的原因也可能不同,所以找了老半天。 步骤:jps --> 看logs中.log文件 --> 百度。 最后找到一个版本的博客提供的方法解决了我的问题:防火墙未关闭。http://itindex.net/detail/51063-hadoop 但是centos7版本
2016-02-15 13:00:50 1733 2
原创 spark调优
问题:后面的优化问题遇到了瓶颈。原因如下: 1.观察到/tmp的使用率一度达到98%,如果再在某一个一个语句中增加一个分隔符设置,还是会出现磁盘空间不足问题; 2.在增加分隔符之前,成功的把主要结果数据存储到内存中,使用了序列化与压缩,查看其大小为9.8GB,全部数据将是这个两倍左右。 3.partition分布不均匀时候,会造成shuffle时消耗大量磁盘空
2016-02-01 11:31:51 325
原创 spark实践——处理表
import org.apache.spark.HashPartitioner import org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry} import org.apache.spark.rdd.RDD import org.apache.spark.sql.types._ import org.
2016-02-01 11:10:28 840
原创 问题记录
1.直接计算设备间的条件概率有一定道理,有另外的值得参考的数学方法: 1.1 计算均值与标准差 1.1.1 计算所有两设备间的概率之和,然后求取均值,然后计算标准差,根据环球科学上面的超过4倍标准差就比较罕见的说法(假设是正态分布?)判断哪些比较奇异; 1.1.2 求所有设备停电次数之和,求每个设备停电次数之和(所有时间、一小时内、一天内,以发现是突发
2016-02-01 10:40:13 350
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人