机器学习
彷徨的石头
这个作者很懒,什么都没留下…
展开
-
分类与聚类的区别
简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。简单地说,聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。区别是,分类是事先定义好类别 ,类别数不变 。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。 聚转载 2012-06-08 16:02:31 · 749 阅读 · 0 评论 -
数据的标准化处理
在数据分析过程中,我们经常需要对数据进行标准化(normalization),数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性。可以举个简单的例子,一个百分制的变量与一个5分值的变量在一起怎么比较?只有通过数据标准化,都把它们标准到同一个标准时才具有可比性。即通过将属性数据按照比例缩放,使之落入一个小的特定区间,如[-1,+1]、[0,1]等,以进一步分析数据的属性。转载 2012-08-07 09:38:39 · 17026 阅读 · 1 评论 -
PCA
主成分分析(PCA)的输入数据时不带标签的,所以PCA是一种unsupervesed learning。PCA像是一个预处理的方法,它可以讲原本的数据维度降低,而使得降低了维度的数据之间的方差最大(也可以说投影误差最小)。 有时候我们会考虑减少方差(比如说训练模型的时候,我们会考虑到方差-偏差的均衡),有时候我们会尽量的增大方差。 如何用SVD去解PCA的问题。PC转载 2012-08-08 22:23:38 · 1121 阅读 · 0 评论 -
从决策树学习谈到贝叶斯分类算法、EM、HMM
最近在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关聚类 & 分类算法的系列文章以作为自己备试之用,甚至以备将来常常回顾思考。行文杂乱,但侥幸若能对读者起到一点帮助,则幸甚转载 2012-10-19 20:42:42 · 4104 阅读 · 0 评论 -
最小描述长度(MDL)
最小描述长度( MDL) 原理是 Rissane 在研究通用编码时提出的。其基本原理是对于一组给定的实例数据 D , 如果要对其进行保存 ,为了节省存储空间, 一般采用某种模型对其进行编码压缩,然后再保存压缩后的数据。同时, 为了以后正确恢复这些实例数据,将所用的模型也保存起来。所以需要保存的数据长度( 比特数) 等于这些实例数据进行编码压缩后的长度加上保存模型所需的数据长度,将该数据长度称为总描转载 2012-12-27 20:54:14 · 27303 阅读 · 2 评论 -
分类效果评价
一个分类器最主要的评测指标就是查准率(正确率)和查全率(召回率)。为了评价二分分类问题的性能,先做以下约定: a:正例测试文档被正确分类为该类的数量; b:负例测试文档被错误分类为属于该类的数量; c:正例测试文档被错误分类为不属于该类的数量; d:负例测试文档被正确分类为不属于该类的数量; 基于上面四个值,就可以定义下转载 2013-01-31 15:14:52 · 14168 阅读 · 0 评论 -
传统向量空间模型的缺陷
传统向量空间模型的缺点: 1、它基于关键字的文档处理方法,依据的是词频信息,两个文档的相似度取决于共同词汇的数量,无法分辨自然语言的语义模糊性。 2、它假设词与词之间是相互独立的,一个关键字唯一代表一个概念或语义单元,而实际情况是文档存在很多的一词多义和同义词现象,因此这种假设很难满足实际情况。 3、文档中词与词往往存在一定的关联性,信息检索的本质就是语义的检索转载 2013-01-31 15:33:23 · 4599 阅读 · 0 评论 -
熵和信息增益
信息论中广泛使用的一个度量标准,称为熵(entropy),它刻画了任意样例集的纯度。给定包含关于某个目标概念的正反样例的样例集S,那么S相对于这个布尔型分类的熵为: 其中,p+代表正样例,比如p+则意味着去打羽毛球,而p-则代表反样例,不去打球。 注意:如果S的所有成员属于同一类,那么S的熵为0;如果集合中正反样例的数量相等时,熵为1;如果集合中正反样例的数量不等时,熵介于转载 2013-01-21 10:58:07 · 7258 阅读 · 1 评论 -
K-means文档聚类初值选择方法
k-means的本质在于通过多次迭代,达到逐步求精的目的。k-means算法具有线性的时间复杂度,因而更加适合像文档聚类这种运算时间开销较大的应用。但是该方法需要预先制定初始值,如聚类的初始种子点、聚类个数k、初始化分等。并且初始化分的好坏对最终聚类的质量有较大影响。选择初始聚类点一般有经验选择、随机选择、最小最大原则等方法,其中最小最大原则主要依据待聚类对象的相似情况选择初始聚点,从而克服了随机转载 2013-04-05 10:38:22 · 3467 阅读 · 0 评论 -
独立成分分析(Independent Component Analysis)
1. 问题: 1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢? 2、经典的鸡尾酒宴会问题(cocktail party problem)。假设在party中有n个人,他们可以同时说话,我们也在房间中一些角落里共放置了n个声音接收器(Microphone)用来记录声音。宴会过后,我们从n个麦克风中转载 2012-08-05 15:13:19 · 1015 阅读 · 0 评论 -
判别模型、生成模型与朴素贝叶斯方法
转载时请注明来源:http://www.cnblogs.com/jerrylead1判别模型与生成模型上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率。形式化表示为,在参数确定的情况下,求解条件概率。通俗的解释为在给定特征后预测结果出现的概率。比如说要确定一只羊是山羊还是绵羊,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊转载 2012-08-05 15:18:38 · 2099 阅读 · 0 评论 -
分类
分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的解决是一个两步过程:第一步,建立一个模型,描述预先的数据集或概念集。通过分析由属性描述的样本(或实例,对象等)来构造模型。假定每一个样本都有一个预先定义的类,由一个被称为类标签的属性确定。为建立模型而被分析的数据元组形成训练数据集,这一步也称作有指导的学习。 在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(D转载 2012-06-19 09:52:47 · 849 阅读 · 0 评论 -
文本分类读后感
文本分类就是将大量文本文档划分为若干组,每组一个类别,使得各个类别代表不同的概念主题。这种分类通常是一个有指导的学习过程。它根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。 文本分类的基础技术由文本的预处理、文本的表示、分类方法及效果评估三部分组成。 (1)文本的预处理转载 2012-06-21 10:37:05 · 1635 阅读 · 0 评论 -
主成分分析
问题:假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者出现频率也类似,是不是可以合成为一个特征呢? 《模型选择和规则化》谈到的特征选择的问题,就是要剔除的特征主要是和类标签无关的特征。比如“学生的名字”就和他的“成绩”无关,使用的是互信息的方法。 而转载 2012-08-05 14:58:01 · 29362 阅读 · 10 评论 -
规则化和模型选择(Regularization and model selection)
1 问题 模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)? 还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数?形式化定义:假设可选的模型集合是,比如我们想分类,那么SVM、logistic回归、神经网络等模转载 2012-08-05 15:00:51 · 3131 阅读 · 0 评论 -
偏最小二乘法回归(Partial Least Squares Regression)
1. 问题 这节我们请出最后的有关成分分析和回归的神器PLSR。PLSR感觉已经把成分分析和回归发挥到极致了,下面主要介绍其思想而非完整的教程。让我们回顾一下最早的Linear Regression的缺点:如果样例数m相比特征数n少(m(n*n矩阵)的秩小于特征个数(即不可逆)。因此最小二乘法就会失效。 为了解决这个问题,我们会使用PCA对样本X(m*n矩阵)进行降维,不妨转载 2012-08-05 15:04:57 · 3630 阅读 · 1 评论 -
典型关联分析(Canonical Correlation Analysis)
1. 问题 在线性回归中,我们使用直线来拟合样本点,寻找n维特征向量X和输出结果(或者叫做label)Y之间的线性关系。其中,。然而当Y也是多维时,或者说Y也有多个特征时,我们希望分析出X和Y的关系。 当然我们仍然可以使用回归的方法来分析,做法如下: 假设,,那么可以建立等式Y=AX如下 其中,形式和线性回归一样,需要训练m次转载 2012-08-05 15:07:35 · 1360 阅读 · 0 评论 -
因子分析(Factor Analysis)
1 问题 之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m<<n的时候,使用梯度下降法进行回归时,如果初值不同,得到的参数结果会有很大偏差(因为方程数小于参数个数)。另外,如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时,也会有问题。让转载 2012-08-05 15:10:21 · 2791 阅读 · 0 评论 -
线性判别分析(Linear Discriminant Analysis)
1. 问题 之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。 比如回到上次提出的文档中含有“learn”和“study”的问题,使用PCA后,也许可以将这两个特征合并为一个,降了维度。但假设我们的类别标签转载 2012-08-05 15:11:40 · 825 阅读 · 0 评论 -
对线性回归,logistic回归和一般回归的认识
【转载时请注明来源】:http://www.cnblogs.com/jerrylead JerryLead 2011年2月27日 作为一个机器学习初学者,认识有限,表述也多有错误,望大家多多批评指正。 1 摘要 本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方转载 2012-08-05 15:17:54 · 726 阅读 · 0 评论 -
Apache Mahout
机器学习最常用的两个:监督学习和无监督学习,它们是Mahout支持的主要功能。 监督学习的任务是学习带标签的训练数据的功能,以便预测任何有效输入的值。常见例子包括将电子邮件消息分类为垃圾邮件,根据类别标记网页,以及识别手写输入。创建监督学习程序需要使用许多算法,最常见的包括神经网络、Support Vector Machines(SVMs)和Naive Bayes分类程序。转载 2013-12-06 21:14:58 · 986 阅读 · 0 评论