Spark
wguangliang
这个作者很懒,什么都没留下…
展开
-
scala spray.json
Scala 使用spray.json进行解析json转换描述如下图 parseJson convertTo[T] String ----------> JSON AST --------------> Scala types:Texample1解析单条json{"name":"CadetBlue","red":9原创 2016-05-27 16:09:39 · 3491 阅读 · 0 评论 -
Spark WordCount TopN
三种方法统计单词出现次数,并取出现次数的top n数据文件basicTopN.txtA C D GB B KC A CD A JA A ICD DEF E A FCGHI JH J HAJ KKD代码object TopNBasic { val N = 5 def main(args: Array[String]): Unit =原创 2016-05-29 14:46:09 · 970 阅读 · 0 评论 -
java版简易 nc
实现一个Java版的简易nc,用于方便windows上spark streaming的socketTextStream 的测试界面如下运行方式有两种:不添加端口号参数,直接运行的话,默认监听9999端口java nc 端口号 ,添加一个端口参数。实现代码import java.awt.BorderLayout;import java原创 2016-05-30 10:12:46 · 2410 阅读 · 3 评论 -
SimpleUpdater
org.apache.spark.mllib.optimization.SimpleUpdater SimpleUpdater 在SparkMLlib中用于权重特征向量的更新,在GradientDescent梯度下降中有用到该类中只有一个compute方法进行权重更新 权重更新规则 weights=weights - stepSize/sqrt(iter)*gradi原创 2016-06-01 18:34:25 · 1295 阅读 · 0 评论 -
LeastSquaresGradient
LeastSquaresGradient 计算每个样本的梯度和误差作用:对每一个单例样本,计算线性回归的最小二乘损失函数的梯度和损失在LinearRegression.scala的第87行生成了该类的实例该类有两个compute方法1.override def compute(data: Vector, label: Double, weights: Vector) 方法返原创 2016-06-02 20:28:23 · 1282 阅读 · 0 评论 -
SPARK-5063
org.apache.spark.SparkException: RDD transformations and actions can only be invoked by the driver, not inside of other transformations; for example, rdd1.map(x => rdd2.values.count() * x) is invalid原创 2016-07-14 13:54:54 · 2825 阅读 · 0 评论 -
Spark高斯混合模型
聚类数据源下载地址 :http://download.csdn.net/detail/wguangliang/9595795提供local单机测试代码,如下:import org.apache.spark.{ SparkConf, SparkContext }import org.apache.spark.mllib.clustering.GaussianMixtureimp原创 2016-08-05 11:22:32 · 1361 阅读 · 0 评论