Spark
文章平均质量分 79
小帆的帆
这个作者很懒,什么都没留下…
展开
-
结合Spark源码分析, combineByKey, aggregateByKey, foldByKey, reduceByKey
combineByKeydef combineByKey[C]( createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)] = self.withScope {combineByKeyWithClassTag(createCombiner, mergeValue,原创 2016-06-16 09:42:03 · 8208 阅读 · 4 评论 -
Spark join和cogroup算子
join下面的代码包括RDD和DataFrame的join操作, 注释中有详细描述import org.apache.spark.sql.types.{DataTypes, StructField, StructType}import org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.{SparkConf, SparkCo原创 2016-06-16 09:39:44 · 15847 阅读 · 0 评论 -
Spark RDD、DataFrame和DataSet的区别
RDD优点: 编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点: 序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销 频繁的创建和销毁对象, 势必会增加GCimport org.apache.spark.sql.SQLContextimport org.apac原创 2016-06-16 09:38:09 · 42140 阅读 · 0 评论 -
Introducing Apache Spark Datasets
原文连接:https://databricks.com/blog/2016/01/04/introducing-apache-spark-datasets.html开发者已经喜欢上了Apache Spark提供的简洁而强大的API, 使用它们可以很容易的分析复杂问题。在Databricks,我们不断的加强Spark的可用性和性能,从而引入了DataFrame和Spark SQL。这些高级的API,翻译 2016-06-16 14:35:51 · 1175 阅读 · 0 评论 -
关联规则、支持度(support)、置信度(confidence)、并运用Spark RDD计算
转载请标明出处:小帆的帆的专栏例子: 总共有10000个消费者购买了商品, 其中购买尿布的有1000人, 购买啤酒的有2000人, 购买面包的有500人, 同时购买尿布和啤酒的有800人, 同时购买尿布的面包的有100人。关联规则关联规则:用于表示数据内隐含的关联性,例如:购买尿布的人往往会购买啤酒。支持度(support)支持度:{X, Y}同时出现的概率,例如:{尿布,啤酒}同时出现原创 2016-06-17 11:37:50 · 80415 阅读 · 1 评论 -
Spark 线性代数库 Breeze API 详解
转载请标明出处:小帆的帆的专栏运算加,减,乘,除向量与向量加:+减:-乘::*除::/规则1:乘除前面,加冒号;单独的乘号和除号分别表示点积和线性求解 规则2:累加效果,加等号import breeze.linalg.DenseVectorobject Test { def main(args: Array[String]) { val v1 = DenseVector(1.原创 2016-06-21 16:55:17 · 10614 阅读 · 0 评论 -
Spark大规模机器学习的性能瓶颈和解决方案
瓶颈:在模型的参数维度非常大时,spark的内存和网络会成为比较大的瓶颈。 在每轮训练之前,spark driver都会把模型参数广播到executor端, 每个task分区训练完本地分区数据后,会把算出的梯度或weights增量聚集到driver端对模型参数(weights)进行更新。当模型参数维度比较高时,网络广播和聚集都需要比较长的时间,也需要耗费比较多的内存,同时更新计算时间也会比较长。转载 2016-06-21 18:05:35 · 2780 阅读 · 0 评论 -
结合源码分析Spark中的Accuracy(准确率), Precision(精确率), 和F1-Measure
转载请标明出处:小帆的帆的专栏例子某大学一个系,总共100人,其中男90人,女10人,现在根据每个人的特征,预测性别Accuracy(准确率)Accuracy=预测正确的数量需要预测的总数 Accuracy = {预测正确的数量 \over 需要预测的总数} 计算由于我知道男生远多于女生,所以我完全无视特征,直接预测所有人都是男生 我预测所的人都是男生,而实际有90个男生,所以 预测正确的数量原创 2016-06-16 09:44:39 · 20733 阅读 · 2 评论