spark Mllib
一只老猿
这个作者很懒,什么都没留下…
展开
-
基于eclipse的spark开发环境搭建
第一次写博客,若有什么不到之处,还请大家见谅原创 2017-12-26 07:37:55 · 1506 阅读 · 0 评论 -
贝叶斯定理
贝叶斯公式为P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)P(A|B)=P(B|A)*P(A)/P(B)其中:1、P(A)是A的先验概率或边缘概率,称作"先验"是因为它不考虑B因素。2、P(A|B)是已知B发生后A的条件概率,也称作A的后验概率。3、P(B|A)是已知A发生后B的条件概率,也称作B的后验概率,这里称作似然度。4、P(B)是B的先验概率或边缘概率,这里称作标准化常量。5...转载 2018-03-08 10:58:37 · 1708 阅读 · 0 评论 -
梯度下降
转载自:https://segmentfault.com/a/1190000011994447梯度下降的概念梯度下降法是一个一阶最优化算法,通常也称为最速下降法。要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对于梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。所以梯度下降法可以帮助我们求解某个函数的极小值或者最小值。对于n维问题就最优解,梯度下降法是最常用的方法之一。下面...原创 2018-03-08 10:02:52 · 257 阅读 · 0 评论 -
spark LDA聚类算法的例子
LDA是狄利克雷分布算法,一般用于海量文档主题聚类。一般每个文档都有一个隐藏的主题,LDA算法就是找出可能性最高的几个主题。在找出主题的同时,也就找到了文档中每个单词在主题中的分布概概率。可以参考http://blog.csdn.net/qq_34531825/article/details/52608003下面是LDA算法的例子。该例子参考了官方网站中的例子。例子中的数据如下:0 1:1原创 2018-01-08 16:32:44 · 2057 阅读 · 0 评论 -
SparkMllib GMM聚类算法的理解以及例子
在完成sparkMllib GMM算法例子之前需要知道几个概念。1、高斯分布、2、多维高斯分布。3、高斯混合分布。4、协方差GMM称为混合高斯分布,它在单高斯分布(又称正太分布,一维正太分布)的基础上针对多元变量发展出来的。(以下参考了百度词条内容)1)单高斯分布公式:,该公式的推导以及意义大家可以自行百度,这里只讲一下各个参数在公式中的意义:μ是正态分布的位置参数,描述正态分布的原创 2018-01-17 09:37:53 · 2241 阅读 · 0 评论 -
CSC Matrix
本文转载至http://www.importnew.com/22977.html目的Compressed Sparse Column Format (CSC)的目的是为了压缩矩阵,减少矩阵存储所占用的空间。这很好理解,手法无非就是通过增加一些”元信息”来描述矩阵中的非零元素存储的位置(基于列),然后结合非零元素的值来表示矩阵。这样在一些场景下可以减少矩阵存储的空间。转载 2018-01-31 10:33:39 · 360 阅读 · 0 评论 -
sparkALS算法例子
该例子援引的是http://files.grouplens.org/datasets/movielens/ 中ml-100k的数据,可以直接下载下来保存到本地,修改代码中的路径即可。package spark;import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.a原创 2017-12-26 08:43:23 · 1586 阅读 · 0 评论 -
基于ALS算法电影推荐(java版)
基于ALS算法的最佳电影推荐(java版)package spark;import java.util.Arrays;import java.util.List;import org.apache.log4j.Level;import org.apache.log4j.Logger;import org.apache.spark.SparkConf;import org.apache.spa原创 2017-12-27 17:06:22 · 3477 阅读 · 3 评论 -
Spark K-Means 算法例子
k-means算法是以空间的点距离为基准,随机或者按照一定规则选择几个中心点数据,计算每个点到该几个中心点的距离,按照距离值最近归为一类的原则,把空间所有的点规则归为初始化的几个中心,称之为中心簇。 然后,找到每个中心簇的中心,再次计算空间所有的点到新的中心点的举例并归类,以此不断迭代,直到达到迭代次数或者点中心不再变化为止。kmeans_data.txt中的数据0.0 0.0 0.0 0.1原创 2018-01-03 15:06:49 · 2349 阅读 · 0 评论 -
ALS算法的基本思想
SparkALS算法基本思想ALS算法是基于模型的推荐算法。起基本思想是对稀疏矩阵进行模型分解,评估出缺失项的值,以此来得到一个基本的训练模型。然后依照此模型可以针对新的用户和物品数据进行评估。ALS是采用交替的最小二乘法来算出缺失项的。交替的最小二乘法是在最小二乘法的基础上发展而来的。由于本人数学有限,就大体的介绍下最小二乘法的思想最小二乘法以下是用户A、B、C对物品A、B、C的打分 用户\物原创 2017-12-26 09:53:45 · 3956 阅读 · 1 评论 -
逻辑回归
作者:寒小阳 && 龙心尘时间:2015年10月。出处:http://blog.csdn.net/han_xiaoyang/article/details/49123419。声明:版权所有,转载请注明出处,谢谢。1、总述逻辑回归是应用非常广泛的一个分类机器学习算法,它将数据拟合到一个logit函数(或者叫做logistic函数)中,从而能够完成对事件发生的概率进行预测。2、由来 ...转载 2018-03-01 17:34:25 · 202 阅读 · 0 评论