机器学习
xmdxcsj
毕业于中科院声学所,在BAT从事语音技术研究多年。微信公众号:谈谈语音技术,关注后跟踪最新博文。
展开
-
朴素贝叶斯分类
一、背景知识1. 概况分类:根据概率论进行分类的方法,本质上是有监督的训练方式,概率值最大对应的类别即为所属的类别。朴素:为了简化计算和公式,做出最原始和最简单的假设,即特征之间是相互独立的、每个特征是同等重要的。2. 贝叶斯公式Ci表示类别,W表示特征向量。类比到语音识别的声学得分即为将求似然概率问题P(Ci|W)转化为求后验概率问题P(W|Ci)原创 2015-04-01 18:44:19 · 668 阅读 · 0 评论 -
libsvm(一) 基本使用
主要流程转化数据格式训练和测试数据进行scale 训练和测试数据需要使用同样的归一化文件svm-scale -l -1 -u 1 -s range train > train.scalesvm-scale -r range eval > eval.scale选择核函数 特征维度>>训练数据:linear kernel 特征维度和训练数据都很大:使用LIBLINEAR库更快 训练数据原创 2016-05-26 22:59:48 · 744 阅读 · 0 评论 -
SVM笔记(五) 非线性支持向量机
SVM笔记(五) 非线性支持向量机@(svm)预备适合场景如果训练输入线性不可分,可以使用非线性支持向量机,利用核技巧将输入空间非线性问题转化到特征空间线性可分问题。 核技巧对于输入空间的所有x,zx,z,函数K(x,z)K(x,z)满足条件 K(x,z)=ϕ(x)⋅ϕ(z)K(x,z)=\phi(x)\cdot \phi(z) 则称K(x,z)K(x,z)为核函数,ϕ(x)\phi(x)为输原创 2016-05-26 22:57:30 · 5268 阅读 · 0 评论 -
SVM笔记(四) 线性支持向量机
预备适合场景如果训练输入线性不可分,存在一些特异点,通过软间隔最大化学习得到的线性分类器称为线性支持向量机。构建目标函数和线性可分支持向量机不同在于有些实例点不满足函数间隔大于等于1的条件。考虑引入松弛变量ξi≥0\xi_i\ge0和惩罚参数CC: minw,b,ξ12||w||2+C∑i=1Nξi\min_{w,b,\xi}\frac{1}{2}||w||^2+C\sum_{i=1}^{N}\x原创 2016-05-26 22:55:45 · 617 阅读 · 0 评论 -
SVM笔记(三) 线性可分支持向量机
预备适合场景如果训练输入线性可分,通过应间隔最大化学习得到的线性分类器称为线性可分支持向量机。 假设特征空间上的训练数据集: T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} 其中xix_i表示第i个特征向量,yi∈{+1,−1}y_i\in\{+1,-1\}为xix_i的类标记。 学习目标是在特征空原创 2016-05-26 22:44:13 · 635 阅读 · 0 评论 -
SVM笔记(二) 拉格朗日对偶性
用途对于约束最优化问题,有时原始问题的最优解不好求解,可以借助拉格朗日对偶性将原始问题转化为对偶问题,通过求解对偶问题的解来获得原始问题的最优解。在最大熵模型和支持向量机中用到了该类方法。描述原始问题假设f(x)f(x),cI(x)c_I(x),hj(x)h_j(x)为定义在RnR^{n}上面的连续可微函数,原始问题如下: minx∈Rnf(x)\min_{x\in R^n}f(x) s.t.c原创 2016-05-26 22:43:26 · 3380 阅读 · 0 评论 -
SVM笔记(一) 概况
用途SVM可以用于二类分类目标函数在特征空间上间隔最大的线性分类器,通过使用核技巧,将输入空间的非线性分类映射到特征空间的线性分类。根据分类问题的困难程度,可以分为以下三种类型的支持向量机: - 线性可分支持向量机 - 线性支持向量机 - 非线性支持向量机求解算法间隔最大化可以形式为一个求解凸二次规划问题,进而利用拉格拉日对偶性转化为求解对偶问题的最优值。 求解对偶问题使用序列最小最优化算法原创 2016-05-26 22:41:45 · 544 阅读 · 0 评论 -
HMM简单理解
HMM模型模型导出贝叶斯的输出变量只有一个,如果将输出变量y加以扩展成序列标注,也就是每一个Xi对应于一个标记Yi,贝叶斯模型转化为:考虑到输出y之间的相互依赖性,联合概率可以分解为生成概率和转移概率的乘积。缺点:虽然考虑了y之间的依赖性,但是仍然假设x之间是相互独立的。HMM用于标记的时候,隐藏变量就是词序列对应的label标记,观测序列是词序列,所求的就是基于各类标原创 2015-10-01 22:23:54 · 5149 阅读 · 0 评论 -
最大熵模型的简单理解
基本思想在只掌握了关于未知分布的部分信息的情况下,符合已知知识分布的概率分布可能有多个,但是熵值最大的概率分布最真实低反映了事件的分布情况。最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。我们常说,原创 2015-10-02 17:33:18 · 8923 阅读 · 2 评论 -
条件随机场CRF简介
Crf模型1. 定义一阶(只考虑y前面的一个)线性条件随机场:相比于最大熵模型的输入x和输出y,crf模型的输入输出都是序列化以后的矢量,是对最大熵模型的序列扩展。相比于最大熵模型的另外一个不同是,crf多出了一个维度j(j表示序列x的位置),即任意一个输出yi,都跟所有的输入x有关。经过变换,crf概率模型可以转化为原创 2015-09-28 21:25:36 · 12630 阅读 · 2 评论 -
EM算法简单理解
EM算法是为了解决什么问题?在求解概率模型的时候,如果需要的变量都是观测变量,不涉及到隐藏变量的话,可以使用极大似然或者贝叶斯估计来求解模型的参数。比如:对于单高斯模型来讲,如果知道观测变量,那么就可以使用极大似然或者最小均方误差来估计高斯模型的均值和方差。如果模型同时包含观察变量和隐藏变量的话,传统的方法不能完成模型的估计,此时就需要引入EM算法。比如:对于混合高斯模型来讲,除了需要估计原创 2015-09-29 18:05:29 · 2313 阅读 · 0 评论