matplotlib
文章平均质量分 78
kimiYangfly
这个作者很懒,什么都没留下…
展开
-
MLlib数据统计基本概念
import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.stat.Statisticsimport org.apache.spark.{SparkConf, SparkContext}object testVector { def main(args: Array[String]): Unit =原创 2017-04-18 15:01:02 · 323 阅读 · 0 评论 -
分层抽样
1.sampleByKeyimport org.apache.spark.{SparkConf, SparkContext}object testVector { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local") .setAppName("test原创 2017-04-20 09:54:18 · 1939 阅读 · 0 评论 -
随机数
import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.random.RandomRDDs._object testVector { def main(args: Array[String]): Unit = { val conf = new SparkConf() .se原创 2017-04-20 11:08:54 · 191 阅读 · 0 评论 -
协同过滤算法+相似度度量+交替最小二乘法
一.简介协同过滤算法:是一种基于群体用户或者物品的经典推荐算法。分两种: 1.通过考察具有相同爱好的用户对相同物品的评分标准进行计算。 2.考察具有相同特质的物品从而推荐给选择了某件物品的用户。A和B是“志同道合”的基友(相似度很高),将A喜欢的物品推荐给B是合理的 在无先验知识的前提下,根据A所喜欢物品的相似性,将相似物品推荐给原创 2017-04-20 13:55:26 · 1820 阅读 · 0 评论 -
随机梯度下降算法
一、算法思想随机梯度下降算法就是不停地寻找某个节点中下降幅度最大的那个趋势进行迭代计算,直到将数据收缩到符合要求的范围之内。误差公式:关键的一点是如何调整theta值,使误差函数J最小化。J函数构成一个曲面或者曲线,我们的目的是找到该曲面的最低点:假设随机站在该曲面的一点,要以最快的速度到达最低点,我们当然会沿着坡度最大的方向往下走(梯度的反方向)用数学描述原创 2017-04-23 15:54:08 · 2617 阅读 · 0 评论 -
MLlib线性回归实战
一、数据5,1 17,2 19,3 211,4 119,5 318,6 2二、程序import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LabeledPoint, LinearRegressionWithSGD}import org.apache.spark.{Spa原创 2017-04-24 20:55:22 · 503 阅读 · 0 评论 -
计算回归曲线的MSE
import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LabeledPoint, LinearRegressionWithSGD}import org.apache.spark.{SparkConf, SparkContext}object kimiYang { var原创 2017-04-25 09:51:41 · 1210 阅读 · 0 评论 -
支持向量机
一、支持向量机使用示例数据:1|21|31|41|51|60|70|80|90|100|11程序:import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.cla原创 2017-04-30 16:18:49 · 170 阅读 · 0 评论