xiaobaichao_ml-CSDN博客

原创 KNN

1.优缺点优点：精度高，对异常值不敏感，没有数据输入假定缺点：计算复杂度高，空间复杂度高2.原理阐述2.1 概念存在训练样本，且训练样本都存在分类标签。输入没有标签的新数据后，计算新数据的每个特征与样本集中数据的特征的距离（欧式距离），将每个特征距离加和作为新数据与训练数据的距离，然后算法提取距离最近的前K个数据的分类标签，然后选择这

2017-07-18 10:55:59 226

原创 GMM

(一)定义Ｋ个GSM混合成一个GMM,每个GSM称为GMM的一个component,也就是分为K个类，与KMeans一样，K的值需要提前确定。例如：随机变量X是由K个高斯分布混合而成，取各个高斯分布的概率为π1π2... πK，第i个高斯分布的均值为μi，方差为Σi。若观测到随机变量X的一系列样本x1,x2,...,xn，试估计参数π，μ，Σ。(二)算法直观推导

2017-07-18 10:55:02 861

原创 RankNet,LambdaRank,LambdaMart

(一)基本概念1.LambdaMART可以看做提升树（boosted tree）版本的LambdaRank，而后者又是基于RankNet发展而来的。Lambda的意义在于量化了一个待排序的文档在下一次迭代时应该调整的方向和强度。2.RankNet是2005年微软提出的一种pairwise的Learning to rank算法，它从概率的角度来解决排序问题。3.对于一些评价指标(

2017-07-18 10:54:22 620

原创 LDA线性分类

1.基本思想是将样本从原始空间转化到最好分类空间，以达到分类和降维的效果，投影后保证样本在新的空间有最大的类间距离和最小的类内距离，即样本在该空间中有最佳的可分离性。2.LDA与前面介绍过的PCA都是常用的降维技术。PCA主要是从特征的协方差角度，去找到比较好的投影方式。LDA更多的是考虑了标注，即希望投影后不同类别之间数据点的距离更大，同一类别的数据点更紧凑。3.LDA的计算：找

2017-07-18 10:53:08 672 1

原创网易2017秋招编程题

1回文序列问题：如果一个数字序列逆置之后跟原序列是一样的就称这样的数字序列为回文序列。例如：{1, 2, 1}, {15, 78, 78, 15} , {112} 是回文序列, {1, 2, 2}, {15, 78, 87, 51} ,{112, 2, 11} 不是回文序列。现在给出一个数字序列，允许使用一种转换操作：选择任意两个相邻的数，然后从序列移除这两个数，并用这两个

2017-07-01 14:07:58 520

原创 CRF

(一)基本定义1.条件随机场（CRF）是给定一组输入随机变量条件下，求另一组输出随机变量的条件概率分布的模型；其特点是假设输出随机变量构成马尔科夫随机场。PS:在条件概率模型P(Y|X)中，Y是输出变量，表示标记序列，X是输入变量，表示需要标注的观测序列，标记序列在HMM中称为状态序列。设X和Y是随机变量，P(Y|X)是在给定X的条件下的Y的条件分布，若随机变量Y构成一个无

2017-06-25 20:35:27 503

xiaobaichao1234的博客

原创 KNN

原创 GMM

原创 RankNet,LambdaRank,LambdaMart

原创 LDA线性分类

原创网易2017秋招编程题

原创 CRF

空空如也

空空如也

原创 KNN

原创 GMM

原创 RankNet,LambdaRank,LambdaMart

原创 LDA线性分类

原创 网易2017秋招编程题

原创 CRF

空空如也

空空如也

原创网易2017秋招编程题