- 博客(7)
- 资源 (9)
- 收藏
- 关注
原创 Spark TroubleShooting
1.数据的并行度是资源的并行度的两到三倍 2.Spark的shuffle和MR的shuffle不同 3.Troubleshooting 解决算子函数返回NUll导致问题: 在返回的时候,返回一些特殊的值,不要返回null,比如“-999”;2、在通过算子获取到了一个RDD之后,可以对这个RDD执行filter操作,进行数据过滤。filter内,可以对数据进行判定,如果是-999,那么就返回fa
2017-11-06 17:27:40 592
原创 Spark性能调优
算子级别的优化:coalesce和repartition都能增加或减少分区的数量,repartition会发生shuffle1、浪费资源、数据倾斜:filter+coalesce(+repartition) 业务测试local,不需要去设置分区和并行度的数量 2、foreachpartition:大部分的内存:计算 、 shuffle,设法减少每个partition的数据量 3、mapPart
2017-11-04 11:34:03 883
原创 Spark数据倾斜
1.在任何大数据类的项目中,都是最棘手的性能问题,最能体现人的技术能力,最能体现RD(Research Developer,研发工程师)的技术水平。 数据倾斜 = 性能杀手,如果没有丰富的经验,或者没有受过专业的技术培训,是很难解决数据倾斜问题的,因为上述的特点,数据倾斜解决方案,这块儿内容和技术,在咱们的这个模块,甚至是整个项目中,都是非常非常核心、有含金量、有价值的。 2.什么是数据倾斜?
2017-11-04 11:32:53 633
原创 TensorFlow学习笔记(十)
1.TensorFlow神经网络—符号嵌入操作 描述tf.nn.embedding_lookup(params, ids, partition_strategy=’mod’, name=None, validate_indices=True) 根据索引ids查询embedding列表params中的tensor值如果len(params) > 1,id将会安照partition_str
2017-11-03 17:49:22 703
原创 TensorFlow学习笔记(九)
TensorFlow神经网络—激活函数操作 描述tf.nn.relu(features, name=None) 整流函数:max(features, 0)tf.nn.relu6(features, name=None) 以6为阈值的整流函数:min(max(features, 0), 6)tf.nn.elu(features, name=None) elu函数,exp(featur
2017-11-03 17:46:32 684
原创 TensorFlow学习笔记(八)
1.TensorFlow复数操作操作 描述tf.complex(real, imag, name=None) 将两实数转换为复数形式# tensor ‘real’ is [2.25, 3.25]# tensor imag is [4.75, 5.75]tf.complex(real, imag) ==> [[2.25 + 4.75j], [3.25 + 5.75j]]tf.compl
2017-11-01 17:27:45 4948
原创 TensorFlow学习笔记(七)
1.TensorFlow 是一个编程系统, 使用图来表示计算任务. 图中的节点被称之为op (operation 的缩写). 一个 op获得 0 个或多个张量(Tensor) , 执行计算, 产生 0 个或多个Tensor . 每个 Tensor 是一个按类型划分的多维数组. 例如, 你可以将一小组图像集表示为一个四维浮点数数组, 这四个维度分别是[batch, height, width, cha
2017-11-01 17:25:30 321
nginx-1.8.1.tar.gz
2017-05-04
nginx-1.8.1
2017-05-04
nginx-1.8.0.tar.gz
2017-05-03
zookeeper-3.4.8
2017-05-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人