2017年11月_Star-Technology

11月 10月 09月 08月 07月 06月 05月 04月

原创 Spark TroubleShooting

1.数据的并行度是资源的并行度的两到三倍 2.Spark的shuffle和MR的shuffle不同 3.Troubleshooting 解决算子函数返回NUll导致问题：在返回的时候，返回一些特殊的值，不要返回null，比如“-999”;2、在通过算子获取到了一个RDD之后，可以对这个RDD执行filter操作，进行数据过滤。filter内，可以对数据进行判定，如果是-999，那么就返回fa

2017-11-06 17:27:40 592

原创 Spark性能调优

算子级别的优化：coalesce和repartition都能增加或减少分区的数量，repartition会发生shuffle1、浪费资源、数据倾斜：filter+coalesce（+repartition）业务测试local，不需要去设置分区和并行度的数量 2、foreachpartition：大部分的内存：计算、 shuffle，设法减少每个partition的数据量 3、mapPart

2017-11-04 11:34:03 883

原创 Spark数据倾斜

1.在任何大数据类的项目中，都是最棘手的性能问题，最能体现人的技术能力，最能体现RD（Research Developer，研发工程师）的技术水平。数据倾斜 = 性能杀手，如果没有丰富的经验，或者没有受过专业的技术培训，是很难解决数据倾斜问题的，因为上述的特点，数据倾斜解决方案，这块儿内容和技术，在咱们的这个模块，甚至是整个项目中，都是非常非常核心、有含金量、有价值的。 2.什么是数据倾斜？

2017-11-04 11:32:53 633

原创 TensorFlow学习笔记（十）

1.TensorFlow神经网络—符号嵌入操作描述tf.nn.embedding_lookup(params, ids, partition_strategy=’mod’, name=None, validate_indices=True) 根据索引ids查询embedding列表params中的tensor值如果len(params) > 1，id将会安照partition_str

2017-11-03 17:49:22 703

原创 TensorFlow学习笔记（九）

TensorFlow神经网络—激活函数操作描述tf.nn.relu(features, name=None) 整流函数：max(features, 0)tf.nn.relu6(features, name=None) 以6为阈值的整流函数：min(max(features, 0), 6)tf.nn.elu(features, name=None) elu函数，exp(featur

2017-11-03 17:46:32 684

原创 TensorFlow学习笔记（八）

1.TensorFlow复数操作操作描述tf.complex(real, imag, name=None) 将两实数转换为复数形式# tensor ‘real’ is [2.25, 3.25]# tensor imag is [4.75, 5.75]tf.complex(real, imag) ==> [[2.25 + 4.75j], [3.25 + 5.75j]]tf.compl

2017-11-01 17:27:45 4948

1.TensorFlow 是一个编程系统, 使用图来表示计算任务. 图中的节点被称之为op (operation 的缩写). 一个 op获得 0 个或多个张量（Tensor） , 执行计算, 产生 0 个或多个Tensor . 每个 Tensor 是一个按类型划分的多维数组. 例如, 你可以将一小组图像集表示为一个四维浮点数数组, 这四个维度分别是[batch, height, width, cha

2017-11-01 17:25:30 321