MLlib
KeepLearningBigData
Apache CarbonDarta PMC;
Apache Spark、Alluxio、KubeRay、SparkBWA等项目的contributor
展开
-
Spark中组件Mllib的学习21之随机数-RandomRDD产生
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 在org.apache.spark.mllib.random下RandomRDDs对象,处理生成RandomRDD,还可以生成uniformRDD、poissonRDD、exponentialRDD、gammaRDD等2.代码:/** *原创 2016-05-23 22:56:31 · 4341 阅读 · 0 评论 -
Spark中组件Mllib的学习39之梯度提升树(GBT)用于分类*
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释(1)GBDT基本概念 用ID3算法和C4.5算法学习得到的决策树,有可能导致模型过拟合,通常使用剪枝算法来解决。随着集成学习的发展,出现了比较典型的迭代决策树GBDT和随机森林RF,即将多棵单决策树进行模型组合,形成多决策树,可以看成原创 2016-05-25 16:33:45 · 3358 阅读 · 0 评论 -
Spark中组件Mllib的学习38之随机森林(使用variance)进行回归
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林(使用variance)进行回归2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo原创 2016-05-25 15:48:26 · 2756 阅读 · 1 评论 -
Spark中组件Mllib的学习35之随机森林(entropy)进行分类
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林:RandomForest2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo245原创 2016-05-25 15:17:15 · 2022 阅读 · 0 评论 -
Spark中组件Mllib的学习37之随机森林(Gini)进行分类
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林:RandomForest 大概思想就是生成多个决策树,都单独训练;如果来了一个数据,用各个决策树进行回归预测,如果是非连续结果,则取最多个数的值;如果连续,则取多个决策树结果的平均值。2.代码:/** * @author xubo原创 2016-05-25 15:44:03 · 2274 阅读 · 0 评论 -
Spark中组件Mllib的学习36之决策树(使用variance)进行回归
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 决策树(使用variance)进行回归2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo2原创 2016-05-25 15:26:54 · 1630 阅读 · 0 评论 -
Spark中组件Mllib的学习34之决策树(使用entropy)*
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释MLlib决策树支持三种不纯度的计算:gini、entropy、variance。其他的目前不支持 def fromString(name: String): Impurity = name match { case "gini" => Gin原创 2016-05-25 15:08:22 · 3758 阅读 · 0 评论 -
Spark中组件Mllib的学习33之决策树(使用Gini)
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 决策树:Decision Trees请见【4】【5】数据每次是随机划分,所以准确率每次不一定2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more c原创 2016-05-25 11:25:25 · 1244 阅读 · 0 评论 -
Spark中组件Mllib的学习32之朴素贝叶斯分类器(伯努利朴素贝叶斯)*
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 (1) 朴素贝叶斯分类器种类 在把训练集中的每个文档向量化的过程中,存在两个模型。一个是统计词在文档中出现的次数(多项式模型);一个是统计词是否在文档中出现过(柏努利模型) 目前mllib只支持多项式朴素贝叶斯和伯努利贝叶斯(spark-1.原创 2016-05-25 11:03:53 · 2106 阅读 · 0 评论 -
Spark中组件Mllib的学习40之梯度提升树(GBT)用于回归*
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 GBRT(Gradient Boost Regression Tree)渐进梯度回归树 同样的setCategoricalFeaturesInfo有问题。注释掉了。2.代码:/** * @author xubo * ref原创 2016-05-25 16:39:45 · 3055 阅读 · 0 评论 -
Spark中组件Mllib的学习41之保序回归(Isotonic regression)
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释问题描述:给定一个无序数字序列,要求不改变每个元素的位置,但可以修改每个元素的值,修改后得到一个非递减序列,问如何使误差(该处取平方差)最小?保序回归法:从该序列的首元素往后观察,一旦出现乱序现象停止该轮观察,从该乱序元素开始逐个吸收元素组成一个序列,原创 2016-05-25 16:59:59 · 2090 阅读 · 0 评论 -
Spark中组件Mllib的学习20之假设检验-卡方检验
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 分别对Vector和Matrix进行卡方检验2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com原创 2016-05-23 22:48:22 · 2339 阅读 · 0 评论 -
Spark中组件Mllib的学习19之分层抽样
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 分层抽样的概念就不讲了,具体的操作: RDD有个操作可以直接进行抽样:sampleByKey和sample等,这里主要介绍这两个 (1)将字符串长度为2划分为层1和层2,对层1和层2按不同的概率进行抽样 数据aabbccddee原创 2016-05-23 22:38:37 · 5307 阅读 · 0 评论 -
Spark中组件Mllib的学习17之colStats:以列为基础计算统计量的基本数据
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 colStats:以列为基础计算统计量的基本数据2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.co原创 2016-05-23 20:04:19 · 2147 阅读 · 0 评论 -
Spark中组件Mllib的学习16之分布式行矩阵的四种形式
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 分布式行矩阵有:基本行矩阵、index 行矩阵、坐标行矩阵、块行矩阵 功能一次增加2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code原创 2016-05-23 19:06:29 · 3035 阅读 · 1 评论 -
Spark中组件Mllib的学习15之创建分布式矩阵
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 创建分布式矩阵2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo245/SparkLe原创 2016-05-23 18:21:08 · 1554 阅读 · 0 评论 -
Spark中组件Mllib的学习14之从文本中读取带标签的数据,生成带label的向量
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 从文本中读取带标签的数据,生成带label的向量2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.co原创 2016-05-23 18:03:24 · 2941 阅读 · 0 评论 -
Spark中组件Mllib的学习13之给向量打标签
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 给数据打label,用于后续监督学习等2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xub原创 2016-05-23 17:59:54 · 1583 阅读 · 0 评论 -
Spark中组件Mllib的学习12之密集向量和稀疏向量的生成
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 mllib生成Vector2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo245/S原创 2016-05-23 17:58:01 · 2472 阅读 · 0 评论 -
Spark中组件Mllib的学习31之朴素贝叶斯分类器(多项式朴素贝叶斯)
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1 解释 (1) 贝叶斯: 推广: (2)朴素贝叶斯:为了简化计算,朴素贝叶斯算法做了一假设:“朴素的认为各个特征相互独立”。这么一来,上式的分子就简化成了:P(C)*P(F1|C)*P(F2|C)...P(Fn|C)。这样简化过后,计算起来就方便多原创 2016-05-24 23:03:25 · 3508 阅读 · 0 评论 -
Spark中组件Mllib的学习30之逻辑回归LogisticRegressionWithLBFGS
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释Limited-memory BFGS (L-BFGS or LM-BFGS) Broyden–Fletcher–Goldfarb–Shanno (BFGS) algorithm =》 LBFGS :Limited-memory Broyden–原创 2016-05-24 22:44:31 · 5057 阅读 · 1 评论 -
Spark中组件Mllib的学习29之支持向量机SVM-方法2
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 spark官网第二种方法建立SVMmodel2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xu原创 2016-05-24 22:35:53 · 2698 阅读 · 1 评论 -
Spark中组件Mllib的学习6之ALS测试(apache spark 含隐式转换)
更多代码请见:https://github.com/xubo245/SparkLearning spark-1.5.2 1解释 使用spark 官网推荐的算法,使用了隐式转换2.代码:package apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport原创 2016-05-16 22:49:00 · 2545 阅读 · 1 评论 -
Spark中组件Mllib的学习7之ALS隐式转换训练的model来预测数据
更多代码请见:https://github.com/xubo245/SparkLearning1解释 使用隐式转换的来进行推荐,感觉有问题2.代码:package apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.spark.ml原创 2016-05-16 22:58:55 · 4470 阅读 · 0 评论 -
Spark中组件Mllib的学习8之ALS训练的model来预测数据
更多代码请见:https://github.com/xubo245/SparkLearning1解释 使用官网的ALS来预测用户2.代码:package org.apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.spark.{Sp原创 2016-05-16 23:00:43 · 1339 阅读 · 0 评论 -
Spark中组件Mllib的学习9之ALS训练的model来预测数据的准确率研究
更多代码请见:https://github.com/xubo245/SparkLearning1解释 研究ALS的准确率2.代码:package org.apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.spark.{SparkC原创 2016-05-17 20:38:32 · 3951 阅读 · 0 评论 -
Spark中组件Mllib的学习10之修改MovieLens来对movieLen中的100k数据进行预测
更多代码请见:https://github.com/xubo245/SparkLearning1解释 数据下载:http://files.grouplens.org/datasets/movielens/2.代码:/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor licen原创 2016-05-17 21:14:19 · 3045 阅读 · 2 评论 -
Spark中组件Mllib的学习11之使用ALS对movieLens中一百万条(1M)数据集进行训练,并对输入的新用户数据进行电影推荐
更多代码请见:https://github.com/xubo245/SparkLearning1解释 spark-1.5.2 数据集:http://grouplens.org/datasets/movielens/ 一百万条(1M) 数据划分: 将样本评分表以key值切分成3个部分,分别用于训练 (60%,并加入用户评分), 校验 (20%), and 测试 (20%)用多个参数训练模型,原创 2016-05-17 22:13:48 · 4617 阅读 · 6 评论 -
Spark中组件Mllib的学习18之corr:两组数据相关关系计算(Pearson、Spearman)
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释(1)皮尔森Pearson 皮尔森相似度的原始计算公式为: 书上也有例子: (2) 斯皮尔曼等级相关 di=xi-yi 注意:这里的Xi、Yi是原始数据的等级,也就是排序序号,不是元素数据值例子: 2.代码:/** *原创 2016-05-23 21:41:03 · 8105 阅读 · 0 评论 -
Spark中组件Mllib的学习23之随机梯度下降(SGD)
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之回归分析篇 1解释 SGD(Stochastic Gradient Descent-随机梯度下降) sgd解决了梯度下降的两个问题: 收敛速度慢和陷入局部最优。 具体的介绍请见【4】、【5】和【6】背景: 梯度下降法的缺点是: 靠近极小值时速度减慢原创 2016-05-24 16:46:13 · 3247 阅读 · 1 评论 -
Spark中组件Mllib的学习5之ALS测试(apache spark)
更多代码请见:https://github.com/xubo245/SparkLearning1解释 按照spark官网使用ALS进行计算2.代码:package org.apache.spark.mllib.learning.recommendimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.spar原创 2016-05-16 22:47:15 · 1721 阅读 · 0 评论 -
Spark中组件Mllib的学习4之examples中的MovieLensALS修改本地运行
环境: spark-1.5.2在idea中自己定义的project中local模式运行,需要注意几个地方:1.文件导入: MovieLensALS.scala 和AbstractParams.scala 其中继承了MovieLensALSAbstractParams,如果不导入AbstractParams会报错2.maven 的pom导入包<?xml version="1.0" encodi原创 2016-05-16 22:33:59 · 2603 阅读 · 0 评论 -
Spark中组件Mllib的学习28之支持向量机SVM-方法1
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。SVM的原创 2016-05-24 22:33:02 · 2353 阅读 · 2 评论 -
Spark中组件Mllib的学习27之逻辑回归-多元逻辑回归,较大数据集,带预测准确度计算
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之逻辑回归篇 1解释 但预测较多数据集,需要去计算准确度2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo原创 2016-05-24 22:02:08 · 2707 阅读 · 0 评论 -
Spark中组件Mllib的学习26之逻辑回归-简单数据集,带预测
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之逻辑回归篇 1解释 什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族原创 2016-05-24 21:59:34 · 7313 阅读 · 0 评论 -
Spark中组件Mllib的学习25之线性回归2-较大数据集(多元)
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之回归分析篇 1解释对多组数据进行model的training,然后再利用model来predict具体的值 。过程中有输出model的权重 公式:f(x)=a1X1+a2X2+a3X3+……2.代码:package org.apache.spark.mllib原创 2016-05-24 17:27:06 · 4510 阅读 · 0 评论 -
Spark中组件Mllib的学习24之线性回归1-小数据集
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之回归分析篇 1解释 简单的对6组数据进行model的training,然后再利用model来predict具体的值 。过程中有输出model的权重 公式:f(x)=aX1+bX22.代码:/** * @author xubo * ref:原创 2016-05-24 17:24:52 · 2084 阅读 · 0 评论 -
Spark中组件Mllib的学习3之用户相似度计算
代码:/** * @author xubo * time 2016.516 * ref 《Spark MlLib 机器学习实战》P64 */package org.apache.spark.mllib.learning.recommendimport org.apache.spark.{SparkConf, SparkContext}import s原创 2016-05-16 20:59:28 · 4509 阅读 · 0 评论 -
Spark中组件Mllib的学习1之Kmeans错误解决
解决办法:(中间比较多,为了方便看到,放在最开始)txt文件格式不对,用WPS转存的是UTF-16,spark跑的时候有问题代码和数据请参考【1】【2】问题:hadoop@Master:~/cloud/testByXubo/sh_spark_xubo/mllib/kmeans/KMeansTest3ByIBM$ ./submitJob.sh [Stage 0:>原创 2016-03-29 18:09:59 · 3932 阅读 · 0 评论 -
Spark中组件Mllib的学习2之MovieLensALS学习(集群run-eaxmples运行)
1.将spark下的data文件夹上传到hdfs目录2.运行:hadoop@Master:~/cloud/spark-1.5.2$ ./bin/run-example mllib.MovieLensALS --rank 5 --numIterations 20 --lambda 1.0 --kryo /xubo/spark/data/mllib/sample_movielens原创 2016-04-27 20:22:35 · 1907 阅读 · 0 评论