数据挖掘
wguangliang
这个作者很懒,什么都没留下…
展开
-
证明分布越均匀熵越大
证明分布越均匀熵越大:有两个二分类样本,第一个样本p1,p2,第二个q1,q2,且p1---来自一道博士的面试题。分析其实熵拐了两个弯。熵意思是信息的混乱程度,越混乱,熵越大。分布越均匀,则是越混乱。 思路是求导取极值,而这个极值是极大值,左增右减大概长这样的计算求导的过程如下0.5是极值点,所以在中间的熵会比较大原创 2015-11-05 20:00:14 · 5785 阅读 · 1 评论 -
协同过滤之ALS-WR算法
这篇文章是参考:https://github.com/ceys/jdml/wiki/ALS 改写的,由于原文Latex公式没有正常展现+少量笔误,妨碍阅读,所以这里重新整理了一下。ALS是alternating least squares的缩写 , 意为交替最小二乘法;而ALS-WR是alternating-least-squares with weighted-λ -regulariza转载 2016-05-30 17:30:18 · 5929 阅读 · 0 评论 -
Spark高斯混合模型
聚类数据源下载地址 :http://download.csdn.net/detail/wguangliang/9595795提供local单机测试代码,如下:import org.apache.spark.{ SparkConf, SparkContext }import org.apache.spark.mllib.clustering.GaussianMixtureimp原创 2016-08-05 11:22:32 · 1361 阅读 · 0 评论