Mahout
文章平均质量分 59
昨日西风紧
被深痛一击过后, 人生不过如此
展开
-
时间序列分析(一) 如何判断序列是否平稳
什么样的图不平稳,先说下什么是平稳,平稳就是围绕着一个常数上下波动。看看上面这个图,很明显的增长趋势,不平稳。 第二种:自相关系数和偏相关系数还以上面的序列为例:用eviews得到自相关和偏相关图,Q统计量和伴随概率。分析:判断平稳与否的话,用自相关图和偏相关图就可以了。平稳的序列的自相关图和偏相关图不是拖尾就是截尾。截尾就是在某阶之后,系数都为0,怎么理解呢,看上面偏相关的图,当阶数为1的时候,系数值还是很大,0.914.原创 2012-05-11 09:07:17 · 13353 阅读 · 0 评论 -
Clustering: Canopy
原创 2012-05-08 15:12:06 · 83 阅读 · 0 评论 -
Classification:Boosting
c. 循环构造多个弱分类器 (1) 根据Wt, 训练弱分类器ht (2) 根据弱分类器对训练样本分类,计算et, et是用h(t)分类错误的Wt的总和 (3) 选取最佳的弱分类器ht, et最小的。 (4) 按照最佳弱分类器更新Wt+1 = Wt*Bt/(1-Bt), 样本被正确分类则Bt=0, 否则为1 (5) 构造强分类器 at= log(原创 2012-05-08 14:53:06 · 110 阅读 · 0 评论 -
Classification:Online Passive Aggressive
新的样本点进行分析,根据分析的结果更新分类器。 Steps1. 设置参数C (C>0)2. 设定W的初值wi=(0,...,0)3. 每接收一个样本Xt, 计算Yt=sign(Wt*Xt) 获取类别yt, 取值为-1或14. 计算损失值: lt= max{0, 1-Yt}5. 更新权值 (1)计算Tt 三种方法 a. Tt = lt/||Xt||2原创 2012-05-08 13:40:57 · 322 阅读 · 0 评论 -
Classification : Random Forests
原创 2012-05-08 09:59:36 · 128 阅读 · 0 评论 -
Classification:preceptron
2012-05-07 19:19:03 · 99 阅读 · 0 评论 -
Classification:Winnow
2012-05-07 19:08:11 · 177 阅读 · 0 评论 -
Classification : Bayesian
原创 2012-05-07 16:44:46 · 67 阅读 · 0 评论 -
Classification : Logistic Regression (SGD)
一般模型可以看出Y和X(X1,X2,X3...)之间存在线性关系。线性回归的目的就是为了确定因变量和自变量的关系程度,换言之,就是求回归模型的参数。2 逻辑回归(1) why need it?要说逻辑回归的优点,自然要先说下线性回归的缺点,主要有难以处理以下两个问题a. 因变量Y如果不是数值型b. 因变量与自变量不存在线性关系 (2) 逻辑回归的一般形式 P是概率,是某个事件发生的概率,处理类别属性,例如是否是男性,是否是色狼?而且进行了logit变换。也就是原创 2012-05-07 16:09:22 · 177 阅读 · 0 评论 -
Clustering: K-Means
原创 2012-05-09 09:02:57 · 71 阅读 · 0 评论 -
Clustering: Fuzzy K-Means
原创 2012-05-09 09:03:17 · 308 阅读 · 0 评论 -
推荐算法比较
原创 2012-05-10 16:17:44 · 150 阅读 · 0 评论 -
Classification: Cart
原创 2012-05-10 15:49:18 · 61 阅读 · 0 评论 -
Dimension reduction:ICA
原创 2012-05-10 10:06:04 · 101 阅读 · 0 评论 -
一些用于回归模型的评价指标
原创 2012-05-10 09:10:57 · 1250 阅读 · 0 评论 -
Mahout 中 kmeans的参数
t:聚类结果存储的路劲,参数不可缺,如果指定了簇的个数,则该路劲下文件可为空4) DistanceMeasure measure:数据点间的距离计算方法,参数可缺,默认是SquaredEuclidean算方法 提供参数值: ChebyshevDistanceMeasure 切比雪夫距离 CosineDistanceMeasure 余弦距离原创 2012-05-10 09:11:29 · 87 阅读 · 0 评论 -
基于item的协同过滤
原创 2012-05-09 09:04:11 · 181 阅读 · 0 评论 -
Dimension reduction:PCA
原创 2012-05-09 09:02:01 · 283 阅读 · 0 评论 -
Dimension reduction:SVD
原创 2012-05-09 09:02:25 · 106 阅读 · 0 评论 -
Mahout介绍
ahout的优势。官网http://mahout.apache.org/ 上说的Scalable就是指hadoop的可扩展性。Mahout用map-reduce实现了部分数据挖掘算法,解决了并行挖掘的问题。这里说的“解决”是一个初步的概念,很多算法由于各种原因是无法用map-reduce并行实现的。Supported Algorithms Classification Logistic Regression (SGD)Bayesian Support Vector Machine原创 2012-05-07 15:25:56 · 360 阅读 · 0 评论 -
时间序列分析(一) 如何判断序列是否平稳
时间序列分析(一) 如何判断序列是否平稳序列平稳不平稳,一般采用两种方法:第一种:看图法图是指时序图,例如(eviews画滴): 分析:什么样的图不平稳,先说下什么是平稳,平稳就是围绕着一个常数上下波动。看看上面这个图,很明显的增长趋势,不平稳。 第二种:自相关系数和偏相关系数还以上面的序列为例:用eviews得到自相关和偏相关图...原创 2012-05-11 09:07:17 · 19142 阅读 · 0 评论 -
推荐算法比较
推荐算法什么样的产品适合推荐 1. 多样性(物品足够多,用户无法一一查看)2. 口味重要(用户口味各异,物品长尾显著,靠热门排行榜推荐无法解决)3. 纯粹性(单一物品相关属性不太复杂,利于精准推荐)4. 大众产品(用户多,规模化,利于推荐)5. 时效性较低(时效性过高则产品更新快,如新闻推荐,推荐数据需要不断更新)6. 容易反馈(推荐引擎需要...原创 2012-05-10 16:17:44 · 304 阅读 · 0 评论 -
Classification:Boosting
Boostingboosting是通过对弱分类器的组合成强分类器 1 AdaBoost 步骤: a. 输入样本集 (X, C) C为类别属性 b. 初始化权值W0 = (..,1/n,...) c. 循环构造多个弱分类器 (1) 根据Wt, 训练弱分类器ht (2) 根据弱分类器对训练样本分类,计算et, et是用h(t...原创 2012-05-08 14:53:06 · 130 阅读 · 0 评论 -
Classification:Online Passive Aggressive
Online Passive AggressiveOnline Passive Aggressive 是在线学习算法,在线学习算法与其它算法的区别在于每次只能得到一个样本点,无法保留历史数据,对每一个新的样本点进行分析,根据分析的结果更新分类器。 Steps1. 设置参数C (C>0)2. 设定W的初值wi=(0,...,0)3. 每接收一个样本Xt, 计算Yt=si...原创 2012-05-08 13:40:57 · 968 阅读 · 0 评论 -
Classification : Random Forests
Random Forests 参考:http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm本文主要简单的介绍随机森林的算法假设用户知道了单个决策树的结构,随机森林包含了多了这样的决策树。当需要预测一个新的样本的时候,采用"少数服从多数"的策略确定样本的类别。Steps:(1) n次随机的可重复采集N个样本,...原创 2012-05-08 09:59:36 · 185 阅读 · 0 评论 -
Classification:preceptron
Preceptron 本文介绍mahout中的preceptron算法 What is preceptron? 线性分类器(二分类问题), 在线学习算法 Steps (1) 初始化权值矩阵w1,...wn为0(n为样本的属性个数) (2) 计算每个样本i的Vi=w1*xi1+w2*xi2+... (3) 如果样本的Vi大于等于0, 则认为样本的类别为...2012-05-07 19:19:03 · 151 阅读 · 0 评论 -
Classification:Winnow
Winnow 本文介绍mahout中的winnow算法 What is winnow? 线性分类器(二分类问题) Steps (1) 初始化权值矩阵w1,...wn为1(n为样本的属性个数) (2)计算每个样本i的Vi=w1*xi1+w2*xi2+... (3)如果样本的Vi大于等于a(通常取值为n或者n/2), 则认为样本的类别为1, 否则为0 ...2012-05-07 19:08:11 · 292 阅读 · 0 评论 -
Classification : Bayesian
Native Bayesian ------mahout0.5 主要的内容:mahout中native bayes文本分类 源码分析和使用 1 训练过程 mahout中训练过程包括4个Map/Reduce(job)...原创 2012-05-07 16:44:46 · 98 阅读 · 0 评论 -
Classification : Logistic Regression (SGD)
Logistic Regression (SGD) Mahout中涉及到的算法1 线性回归了解逻辑回归之前先了解下线性回归:因变量和自变量之前存在线性关系。一般模型如下:从一般模型可以看出Y和X(X1,X2,X3...)之间存在线性关系。线性回归的目的就是为了确定因变量和自变量的关系程度,换言之,就是求回归模型的参数。2 逻辑回归(1) why need it?要说...原创 2012-05-07 16:09:22 · 245 阅读 · 0 评论 -
Mahout介绍
What is Mahout, why need it? Mahout 是机器学习和数据挖掘的一个分布式框架,区别于其他的开源数据挖掘软件,它是基于hadoop之上的; 所以hadoop的优势就是Mahout的优势。官网http://mahout.apache.org/ 上说的Scalable就是指hadoop的可扩展性。Mahout用map-reduce实现了部分数据挖掘算法,解决了并...原创 2012-05-07 15:25:56 · 231 阅读 · 0 评论 -
Clustering: Canopy
Canopy本文介绍聚类算法:canopy 该算法的主要特点:无需设置集群个数 算法的步骤1. 设置参数T1和T2, 其中T1>T2, 参数敏感2. 在样本集和钟任务一个样本P, 计算P与所有Canopy之间的距离,初始的时候Canopy为空,直接把P 当成一个Canopy. 如果P与某个Canopy距离在T1以内,则将P认为是一个Canopy。如果在...原创 2012-05-08 15:12:06 · 144 阅读 · 0 评论 -
Dimension reduction:PCA
Principal Components Analysis(PCA)PCA算法的步骤a. 计算样本集的协方差矩阵S S的值表示样本之间的相关性,大于0说明是正相关;小于0,说明是负相关;等于0,说明相互独立,不相关b. 计算S的特征向量和特征值,按从大到小排序。c. 设置要映射的低维空间维数k,取前k个特征值对应的特征向量作为降为的结果。 为什么选用协方差矩阵...原创 2012-05-09 09:02:01 · 242 阅读 · 0 评论 -
Classification: Cart
CARTMahout中没有这个算法,学习而已步骤:a. 构建树: 每次选取一个属性及其分割点b. 剪枝: 防止过拟合。 a和b步骤是大部分的决策树的通用的方法。不同决策树选择的属性选取的方法不一样。构建树的方法关键在于如何最优的选择属性,如何最优的选择分割点。cart采用gini index来选择属性。gini index的公式:其中,pj为S中的...原创 2012-05-10 15:49:18 · 108 阅读 · 0 评论 -
Dimension reduction:ICA
Independent Components Analysis(ICA)PCA的基本思想是在特征空间中寻找一些方向,使得在新的方向上表示数据的误差平方和最小。ICA的基本思想是在特征空间中寻找最能使得数据相互独立的方向,所以普遍用于盲信号分离。所以降维的结果每一维属性之间都相互独立。 ICA算法的步骤a. 假设训练样本X(t)b. 降维后的样本为S(t)...原创 2012-05-10 10:06:04 · 333 阅读 · 0 评论 -
Mahout 中 kmeans的参数
1) Path Input: 所有待聚类的数据点的路劲,参数不可缺2) Path clusters:存储每个簇中心的路劲,参数不可缺3) Path output:聚类结果存储的路劲,参数不可缺,如果指定了簇的个数,则该路劲下文件可为空4) DistanceMeasure measur...原创 2012-05-10 09:11:29 · 187 阅读 · 0 评论 -
一些用于回归模型的评价指标
Mean dependent var因变量的样本均值: 目的是为了度量因变量的集中度E(y)=(y1+y2+,...,+yn)/nS.D dependent var因变量的样本标准差: 目的是为了度量因变量的离散度这里不好编辑公式,省略... sum squared redis残差平方和:很多最优化的方法都怡残差平方最小和作为目标函数。越小说明效果越好。SSR=...原创 2012-05-10 09:10:57 · 3919 阅读 · 0 评论 -
基于item的协同过滤
基于item的推荐算法分析1 概述基于item的推荐方法假设:能够引起用户兴趣的item,必定与其评分高的item相似。主要包括三个步骤:(1) 得到每个用户对item的评分数据;(2) 对item进行最近邻的搜索;(3) 产生推荐。相比基于用...原创 2012-05-09 09:04:11 · 148 阅读 · 0 评论 -
Clustering: Fuzzy K-Means
Fuzzy K-Means与kmeans的区别在于fuzzy, 聚类不明确,只是提供一个隶属度。可以理解成样本属于某个簇的概率算法步骤:a. 设定聚类的个数Kb. 选取样本集中k个样本做为簇的中心Cc. 计算隶属度矩阵 其中,m是样本的属性个数。d. 根据隶属度更新簇中心 e. 循环步骤c和d, 直到中心点不再变化,或者其他的终止条件...原创 2012-05-09 09:03:17 · 477 阅读 · 0 评论 -
Clustering: K-Means
K-Means算法步骤a. 设置聚类的个数Kb. 从样本集中任意选K个样本作为初始簇的中心c. 计算每个样本与簇中心的距离,划分到最近的簇中d. 重新计算每个簇的中心, 簇内所有点的平均值e. 重复c和d,直到簇中心点不再变化,或者自定义的终止条件,例如迭代的最大次数等。...原创 2012-05-09 09:02:57 · 114 阅读 · 0 评论 -
Dimension reduction:SVD
Singular Value Decomposition (SVD)降维的目的是为了去除冗余的数据,数据压缩等。大部分的挖掘算法在高维空间上难以达到较好的效果。 奇异值用于降维的步骤:1. 将样本构造成矩阵A2. 对A进行奇异值分解 SVD(A)=[U, S, V]3. U是AAT的特征向量矩阵,V是ATA的特征向量的矩阵,S是ATA和AAT的共同的特征值,从大到小4....原创 2012-05-09 09:02:25 · 153 阅读 · 0 评论