机器学习
xiaobaichao_ml
这个作者很懒,什么都没留下…
展开
-
CRF
(一)基本定义1.条件随机场(CRF)是给定一组输入随机变量条件下,求另一组输出随机变量的条件概率分布的模型;其特点是假设输出随机变量构成马尔科夫随机场。PS:在条件概率模型P(Y|X)中,Y是输出变量,表示标记序列,X是输入变量,表示需要标注的观测序列,标记序列在HMM中称为状态序列。设X和Y是随机变量,P(Y|X)是在给定X的条件下的Y的条件分布,若随机变量Y构成一个无原创 2017-06-25 20:35:27 · 503 阅读 · 0 评论 -
LDA线性分类
1.基本思想是将样本从原始空间转化到最好分类空间,以达到分类和降维的效果,投影后保证样本在新的空间有最大的类间距离和最小的类内距离,即样本在该空间中有最佳的可分离性。2.LDA与前面介绍过的PCA都是常用的降维技术。PCA主要是从特征的协方差角度,去找到比较好的投影方式。LDA更多的是考虑了标注,即希望投影后不同类别之间数据点的距离更大,同一类别的数据点更紧凑。3.LDA的计算:找原创 2017-07-18 10:53:08 · 670 阅读 · 1 评论 -
RankNet,LambdaRank,LambdaMart
(一)基本概念1.LambdaMART可以看做提升树(boosted tree)版本的LambdaRank,而后者又是基于RankNet发展而来的。Lambda的意义在于量化了一个待排序的文档在下一次迭代时应该调整的方向和强度。2.RankNet是2005年微软提出的一种pairwise的Learning to rank算法,它从概率的角度来解决排序问题。3.对于一些评价指标(原创 2017-07-18 10:54:22 · 618 阅读 · 0 评论 -
GMM
(一)定义K个GSM混合成一个GMM,每个GSM称为GMM的一个component,也就是分为K个类,与KMeans一样,K的值需要提前确定。例如:随机变量X是由K个高斯分布混合而成,取各个高斯分布的概率为π1π2... πK,第i个高斯分布的均值为μi,方差为Σi。若观测到随机变量X的一系列样本x1,x2,...,xn,试估计参数π,μ,Σ。(二)算法直观推导原创 2017-07-18 10:55:02 · 858 阅读 · 0 评论 -
KNN
1.优缺点 优点:精度高,对异常值不敏感,没有数据输入假定 缺点:计算复杂度高,空间复杂度高2.原理阐述2.1 概念 存在训练样本,且训练样本都存在分类标签。输入没有标签的新数据后,计算新数据的每个特征与样本集中数据的特征的距离(欧式距离),将每个特征距离加和作为新数据与训练数据的距离,然后算法提取距离最近的前K个数据的分类标签,然后选择这原创 2017-07-18 10:55:59 · 225 阅读 · 0 评论