机器学习
文章平均质量分 63
xwchao2014
这个作者很懒,什么都没留下…
展开
-
机器学习导论
在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是 EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?转载 2015-05-04 16:07:31 · 1444 阅读 · 0 评论 -
机器学习算法面试—口述(5):回归
这个系列是为了应对找工作面试时面试官问的算法问题,所以只是也谢算法的简要介绍,后期会陆续补充关于此算法的常见面问题。一、Logistic回归 先说下logistic回归,它是根据现有数据对分类边界建立回归公式,以此进行分类。其计算代价不高,易于实现与理解,但是容易欠拟合、分类精度不太高; logistic回归可以看成是一种概率估计,使用的的是sigmioid函数,原创 2015-08-26 11:26:06 · 1320 阅读 · 0 评论 -
机器学习算法面试—口述(6):数据的简化(PCA、SVD)
这个系列是为了应对找工作面试时面试官问的算法问题,所以只是也谢算法的简要介绍,后期会陆续补充关于此算法的常见面问题一、PCA(主成分分析) PCA是一种降维技术,其做法是—寻找最小均方意义下,最能代表原始数据的投影方法!在PCA中数据从原来的坐标系转换到新的坐标系中去,新坐标系的选择是由数据决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴的原创 2015-08-26 16:05:45 · 3289 阅读 · 0 评论 -
机器学习算法面试—口述(4):决策树
这个系列是为了应对找工作面试时面试官问的算法问题,所以只是也谢算法的简要介绍,后期会陆续补充关于此算法的常见面问题!决策树是一种依托于策略抉择而建立起来的树,是一种依托于分类、训练上的预测树,根据已知,预测和分类未来。决策树的建立是不断的使用数据的特征将数据分类的过程,主要的问题在于如何选择划分的特征;常用的几种决策树算法有ID3、C4.5、CART等;其中ID3使用的是信息熵增益原创 2015-08-25 17:29:04 · 4434 阅读 · 0 评论 -
机器学习算法面试—口述(3):贝叶斯分类器
这个系列是为了应对找工作面试时面试官问的算法问题,所以只是也谢算法的简要介绍,后期会陆续补充关于此算法的常见面试的问题!贝叶斯分类器的原理其实很简单,知道了贝叶斯公式基本上就知道了贝叶斯分类器的工作原理。对于一个待分类项,求出此项出现的条件下哪个类别的概率大,就判定为哪类,仅次而已。其实贝叶斯分类器是建立在错误的理论上建立起来的分类器,没错就是错误的理论,它假定事物之间是没有联系的原创 2015-08-25 15:30:51 · 3294 阅读 · 1 评论 -
机器学习算法面试—口述(2):Adaboost算法及常见问题
AdaBoost是一种迭代算法,针对同一训练集训练处不同的分类器(弱分类器),将前面训练的分类器以某种方式组合起来,组合成一个强分类器。算法是通过改变数据的分布来实现的。每次训练分类器是参考1、某样本在上个分类器的分类过程中是否被正确分类2、上个分类器的准确率AdaBoost是Adaptive Boosting的缩写,Adaptive在于:前一个分类器分错的样本会得到增强,加强后的全体原创 2015-08-24 17:19:41 · 3497 阅读 · 0 评论 -
机器学习算法面试—口述(1):SVM介绍及常见问题
首先SVM是支持向量机support vector machine的缩写,它是现在使用比较广泛的一个分类算法(二分类),是一个线性分类器!当数据是线性可分的时候:SVM是在空间找一个分类超平面,将数据分开,下面以二维为例(1) (2)SVM要做的就是找到(1)中间那条线(三维的话是一个面,更高维是一些其他什么的。。。),但是光找到那条线是不够的,因为这样的线是有无数原创 2015-08-24 16:36:54 · 10136 阅读 · 0 评论 -
EM算法
(EM算法)The EM Algorithm在使用高斯混合模型时需要用到EM算法,故在此处转载一篇写的比较好的文章。 EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1.转载 2015-03-23 14:25:27 · 661 阅读 · 0 评论 -
高斯混合模型
这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。 与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,,其中,有k个值{1,…,k}可以选取。而且我们认为在给定后,满足多值高斯分布,即。由此可转载 2015-03-23 16:09:04 · 1064 阅读 · 0 评论 -
机器学习算法面试口述(7):分类小结
这个系列是为了应对找工作面试时面试官问的算法问题,所以只是也谢算法的简要介绍,后期会陆续补充关于此算法的常见面问题。 分类的概念就说了,分类一般分为两个阶段:学习阶段以及分类阶段; 常用的分类方法有:1、决策树 决策树不需要任何领域的知识或者参数的设置,其可以处理高维数据,简单快速。若分类的数据是连续的,则需要插入分裂点将数据离散化;树建立的过程中,需要按照一定原创 2015-08-27 11:21:02 · 1763 阅读 · 0 评论