机器学习
文章平均质量分 88
掉下个小石头
jump jump jump...
展开
-
ML—F值与特征选择
介绍一种特征选择方法原创 2014-12-29 11:31:39 · 5581 阅读 · 0 评论 -
ML—libSVM获得权重
% 华电北风吹 天津大学计算机科学与技术学院脑认知重点实验室clear;clc;[label_vector, instance_matrix] = libsvmread('heart_scale');instance_matrix=full(instance_matrix);model = svmtrain(label_vector, instance_matrix,'-t 0')原创 2014-12-17 14:57:30 · 4851 阅读 · 2 评论 -
ML—方差分析的思考
方差分析重要的基础知识概念原创 2014-12-05 10:30:25 · 2565 阅读 · 0 评论 -
[转载]从 SVM 到多核学习 MKL
原文链接: http://zipperary.com/2014/11/27/mkl/?utm_source=tuicool&utm_medium=referralSVM是机器学习里面最强大最好用的工具之一,它试图在特征空间里寻找一个超平面,以最小的错分率把正负样本分开。它的强大之处还在于,当样本在原特征空间中线性不可分,即找不到一个足够好的超平面时,可以利用核(kernel)函数,将特征映射到希尔转载 2015-11-26 22:10:34 · 9756 阅读 · 2 评论 -
ML—朴素贝叶斯
华电北风吹日期:2015/12/11朴素贝叶斯算法和高斯判别分析一样同属于生成模型。但朴素贝叶斯算法需要特征条件独立性假设,即样本各个特征之间相互独立。一、朴素贝叶斯模型图示 其中,C1,C2,…,Ck表示k个类别的先验概率,pi1,pi2,…,pin表示 如图所示,对于k分类问题,贝叶斯算法需要构建k个联合概率分布。 二、朴素贝叶斯模原创 2015-12-12 20:28:10 · 1279 阅读 · 0 评论 -
ML—高斯混合模型
华电北风吹 日期:2016-05-07高斯混合模型是一个无监督学习算法,主要用思路是利用EM算法对混合高斯分布进行极大似然估计。一、高斯混合分布 对于有kk个高斯分布混合而成的混合高斯分布的概率密度函数有 p(x)=∑zp(x|z)p(z)(1)p(x)=\sum_z p(x|z)p(z) \tag{1} 对于随机变量zz有zz~Multinomial(ϕ)Multinomial(\phi)原创 2016-05-07 21:37:28 · 1885 阅读 · 0 评论 -
ML—感知机算法(MATLAB)
华电北风吹天津大学认知计算与应用重点实验室最后修改日期:2015/8/23 感知机算法属于比较简单的分类器算法,但是跟逻辑回归和支持向量机一样属于构建分类超平面。 不同的是感知机采用分错的样本与分类超平面的距离作为损失函数,下面的算法基于随机梯度下降法,采用异步方式达到收敛状态function [w]=perceptionLearn(x,y,lear原创 2015-06-19 22:27:25 · 18528 阅读 · 4 评论 -
[ML] Latent Dirichlet Allocation(LDA)
华电北风吹 天津大学认知计算与应用重点实验室 2016-09-06关于LDA,保存几个特别好的文档,有空的时候重点学习一下LDA. Probabilistic Topic Models(review articles) 上面文档译文: http://www.cnblogs.com/siegfang/archive/2013/01/30/2882391.html LDA 数学八卦 LDA原创 2016-09-06 09:42:04 · 456 阅读 · 0 评论 -
[ML] AdaBoost算法
华电北风吹 日期:2016-05-21AdaBoost算法通过提高被前一轮弱分类器错误分类样本的权值,降低那些被正确分类的样本的权重,然后构建一系列的分类器,通过分类器的加权投票做出最终决策。一、AdaBoost算法 AdaBoost算法流程AdaBoost 算法流程 —————————————————————————————————— 对于输入样本(x(i),y(i)),i=1,2,.原创 2016-05-21 19:26:10 · 1348 阅读 · 0 评论 -
[ML] 线性回归之过拟合
Andrew Zhang Nov 22, 2016线性回归一个很不好的地方就是它的过拟合问题。对此不无法获取更多数据的时候,也有很多解决方法,比如说添加L1正则项的套索回归,添加L2正则项的岭回归,以及今天要说的earlystopping算法。 earlystopping算法基于重采样技术。对每次重采样后得到的样本集合划分为训练集和验证集,在训练集上训练一个回归模型,然后再验证集上测量验证集的准原创 2016-11-22 09:41:45 · 1486 阅读 · 0 评论 -
ML—EM
Andrew Zhang May 7, 2016EM算法是一个求解极大似然估计问题的迭代算法。EM算法对于给定的初始值都能够保证收敛,但不能保证全局收敛,对初始值敏感。一、EM算法引入 如果现在有一批服从于一个高斯分布的采样样本,想根据样本推测高斯分布的均值,我们知道只需要写出似然函数进行求导即可求解,并且这个高斯分布均值的极大似然估计就是所有采样样本的均值。 现在,让问题稍微复杂点,如果这批原创 2016-05-07 19:44:56 · 4164 阅读 · 2 评论 -
ML—线性回归系列(一)—线性回归
Andrew Zhang Tianjin Key Laboratory of Cognitive Computing and Application Tianjin University Nov 25, 2015本来以为线性回归是一个特简单的东西,最近遇到很多基于线性回归的东西,才意识到我的无知。为了记录最近的学习历程,还是从线性回归开始系统总结一下吧。一、线性回归 在实际问题中,在考虑变量原创 2015-11-25 20:53:09 · 1588 阅读 · 0 评论 -
ML—拉格朗日对偶和KKT条件
Andrew Zhang Tianjin Key Laboratory of Cognitive Computing and Application Tianjin University Oct 23, 2015本文基于斯坦福Andrew NG讲义和李航统计学习方法。一、拉格朗日乘数法 考虑如下等式约束优化问题。 minwmin_w f(w)f(w) s.t.s.t. hi(w)=0,原创 2015-10-23 21:20:48 · 3177 阅读 · 0 评论 -
ML—线性回归系列(四)—lasso&mtl
Andrew Zhang Nov 25, 2015本文主要对套索回归(lasso)进行总结。 本系列的第一篇中线性回归的转化为如下的无约束优化问题 minθ∑mi=1(y(i)−θTx(i))2(0-1)\min_\theta \sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2 \tag{0-1} 其中,x(i)∈Rn×1x^{(i)}\in R^{n\tim原创 2015-12-04 15:29:50 · 1056 阅读 · 0 评论 -
[ML] 多任务学习以及流行正则化
Andrew Zhang May 24, 2016线性回归容易因为过拟合而出现高方差,因此为了控制模型复杂度往往在线性回归的时候添加很多正则项,众所周知的就有L0,L1,L2L0,L1,L2,L1L1范式效果是使得参数每一项的值向0缩减,而L0,L2L0,L2范式则是通过将一些参数的权值归零来缩减特征的个数。一、多任务学习的提出 在多任务学习中,每一个任务下数据特征的维数相等,并且对应于相同的意原创 2016-05-24 21:16:20 · 4423 阅读 · 4 评论 -
ML—广义线性模型导论
Andrew Zhang Tianjin Key Laboratory of Cognitive Computing and Application Tianjin University Nov 3, 2015本文主要讲解我对GLM的理解,并将GLM推广到逻辑回归,线性回归和Softmax回归理论中。一、指数分布族(ExponentialFamily) 如果一个分布密度函数可以写成如下的形式原创 2015-11-04 12:36:32 · 16376 阅读 · 0 评论 -
ML—SVM导论
Andrew Zhang Tianjin Key Laboratory of Cognitive Computing and Application Tianjin University Oct 23, 2015本篇博客用来总结对SVM理论的理解,以及学习过程中思考的一些问题。一、SVM模型建立 对于线性可分的数据,SVM指导思想是寻找一个分类超平面,将两类样本分别划分到超平面两侧,并且使得原创 2015-10-24 14:50:45 · 1625 阅读 · 0 评论 -
ML—线性回归系列(三)—岭回归
华电北风吹日期:2015/11/25本文主要对岭回归(ridge regression)进行总结。 本系列的第一篇中线性回归的转化为如下的无约束优化问题 minθ∑mi=1(y(i)−θTx(i))2(0-1)\min_\theta \sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2 \tag{0-1} 其中,x(i)原创 2015-11-25 21:31:15 · 1878 阅读 · 0 评论 -
ML—决策树算法实现(train+test,matlab)
华电北风吹 天津大学认知计算与应用重点实验室 修改日期:2015/8/15决策树是一种特别简单的机器学习分类算法。决策树想法来源于人类的决策过程。举个最简单的例子,人类发现下雨的时候,往往会有刮东风,然后天色变暗。对应于决策树模型,预测天气模型中的刮东风和天色变暗就是我们收集的特征,是否下雨就是类别标签。构建的决策树如下图所示 决策树模型构建过程为,在特征集合中无放回的依次递归抽选特征作为原创 2015-08-15 20:58:08 · 9693 阅读 · 10 评论 -
ML—FullBNT学习笔记之一(matlab)
首先来看一个草地湿润模型,Cloudy表示天气是否多云,C=1(F)表示False,C=2(T)表示True,一下表示均相同,Sprinklet表示洒水车是否出动,Rain表示是否下雨,WetGrass表示草地是否是湿的。旁边的表格表示各种条件概率。 贝叶斯网络表示:BNT中使用矩阵方式表示贝叶斯网络,即若节点i到j有一条弧,则对应矩阵中(i,j)值为1,否则为0。上图原创 2015-03-03 18:06:55 · 5195 阅读 · 2 评论 -
ML—AdaBoost(一)—历史
近期需要做一个TransferLearing的大作业,就先总结一下自己学习AdaBoost的一些思考 一直以来人们都想通过对分类器分错的样本构建单独的分类器来增加分类准确率,所以AdaBoost出现以前就有了boostrapping方法和bagging方法 AdaBoost历史:1)bootstrapping方法的主要过程 主要步骤: i)重原创 2015-04-15 11:07:49 · 4203 阅读 · 0 评论 -
ML—高斯判别分析、朴素贝叶斯和逻辑回归
华电北风吹天津大学认知计算与应用重点实验室最后修改日期:2015/8/22 近来看论文中经常看到GDA和朴素贝叶斯,并且论文中说的算法中用到的贝叶斯公式,对怎么用的原理以前没有仔细研究,今天仔细的看了斯坦福机器学习的关于GDA,NB和LR的讲义部分。理解了贝叶斯公式在GDA和NB中的原理,以及GDA和LR的关系。 与以前学习贝叶斯公式相比原创 2014-12-31 21:12:36 · 5062 阅读 · 0 评论 -
ML—决策树(train,matlab)
华电北风吹天津大学认知计算与应用重点实验室修改日期:2015/8/11 决策树是一种特别简单的机器学习分类算法。决策树想法来源于人类的决策过程。举个最简单的例子,人类发现下雨的时候,往往会有刮东风,然后天色变暗。对应于决策树模型,预测天气模型中的刮东风和天色变暗就是我们收集的特征,是否下雨就是类别标签。构建的决策树如下图所示 决策树模型构建过程为原创 2015-03-31 22:15:41 · 12927 阅读 · 20 评论 -
ML—AdaBoost(二)—MATLAB代码
华电北风吹天津大学认知计算与应用重点实验室2015/7/27 在网上看了几篇AdaBoost的介绍后,感觉网上介绍的都不好,不能够让人完全理解,因此就下载了一个外国人写的代码,总算透彻的理解了AdaBoost,可以向Transfer开进了,现在分享一下代码: 主函数代码clear;clc;%% DEMONSTRATION OF ADABOOST_t原创 2015-04-15 14:52:32 · 13988 阅读 · 2 评论 -
ML—核技巧
华电北风吹 天津大学认知计算与应用重点实验室 日期:2015/11/13什么是核? xi,xj∈RNx_i,x_j \in R^N,模型中遇到的关于xi,xjx_i,x_j的计算全部是<xi,xj><x_i,x_j>,若在N维中得不到想要的效果,就可以利用核函数,将原本是N维的内积运算映射到高维空间,甚至是无限维。 K(xi,xj)=<ϕ(xi),ϕ(xj)>(0)K(x_i,x_j)原创 2015-11-13 18:38:13 · 1933 阅读 · 0 评论 -
ML—knn与kd树
华电北风吹 天津大学认知计算与应用重点实验室 最后修改日期:2015/8/6k近邻是一种特别简单的有监督学习算法。给定一个带标签的训练数据集,从中选择与预测样本最近的k个训练样本,用这k个样本投票决定预测样本标签。 k近邻法三要素:距离度量,k值选择和分类决策规则为了提高k近邻搜索效率,比较常用的就是线性扫描和kd树(二叉树) kd树构造:对每个维度的特征依次寻找中位数划分子集,并以此中位数原创 2015-07-29 18:14:15 · 4110 阅读 · 0 评论 -
ML—线性回归系列(二)—基础统计
华电北风吹 天津大学认知计算与应用重点实验室 日期:2015/11/25线性回归是统计学里面一个非常重要的部分,在本系列的第二部分主要总结一些线性回归的统计学指标。并且不定期更新。一、统计学名词 样本与系列第一篇表示一样表示为(x(i),y(i))(x^{(i)},y^{(i)}),模型对于x(i)x^{(i)}的预测值为y^(i)=θ^Tx(i)\hat y^{(i)}=\hat\the原创 2015-11-25 21:12:47 · 898 阅读 · 0 评论 -
ML—SVM高级应用总结
华电北风吹 日期:2015/12/3SVM近期研究结果总结,不定期更新。。。 一、SVM提升算法 基于单个SVM分类器构建强分类器。核函数采用RBF核K(xi,xj)=e−γ||xi−xj||2K(x_i,x_j)=e^{-\gamma||x_i-x_j||^2}的时候会发现,采用较小的γ\gamma容易欠拟合,而较大的γ\gamma又会造成过拟合,这在原创 2015-12-03 10:10:00 · 1146 阅读 · 0 评论 -
ML—常见的特征提取方法
华电北风吹 日期:2015/11/20特征提取不同于特征选择,特征提取是利用原有的特征根据一定的算法提取出原始特征中包含的抽象特征。一、PCA(主成分分析) PCA的是一种无监督的特征降维方法。确切来说,PCA不是一种特征降维方法,PCA一次寻找一组正交的映射空间,并且使得能够在这个映射空间上方差最大。二、MDS(Muli-demision scaling) MDS也是一种无监督的特征映射方法原创 2015-11-20 11:35:07 · 7585 阅读 · 0 评论 -
ML—常见的特征选择方法
华电北风吹 天津大学认知计算与应用重点实验室 日期:2015/11/20在统计分析中,由于事先并不知道什么特征与这个模式相关,而特征对能否正确分类又起到至关重要的作用,因此特征选择是统计学习中必不可少的一步。目前常用的特征选择方案有如下几种:一、F值(方差分析) 适用范围:特征取值连续,有监督 方差分析能够作为特征选择的思路是:对于单个特征来说假设这个特征与类别标签是无关的,因此这个特征原创 2015-11-20 11:18:21 · 4239 阅读 · 1 评论 -
ML—逻辑回归算法(MATLAB)
华电北风吹天津大学认知计算与应用重点实验室最后修改日期:2015/8/23统计学习三要素方法=模型+策略+算法,对应于逻辑回归模型=基于单极型函数(逻辑函数)的条件概率模型策略=经验损失对应的训练样本先验概率最大化算法=随机梯度上升法逻辑回归MATLAB代码比较简单,如下所示,循环对所有的样本,进行梯度上升算法function [w]=LogisticReg原创 2015-06-20 18:13:13 · 13132 阅读 · 2 评论 -
ML—高斯判别分析
华电北风吹 天津大学认知计算与应用重点实验室 日期:2015/12/11高斯判别分析属于生成模型,模型最终学习一个特征-类别的联合概率。0 多维正态分布 确定一个多维正态分布只需要知道分布的均值向量μ∈Rn×1\mu\in R^{n\times 1}和一个协方差矩阵Σ∈Rn×n\Sigma\in R^{n\times n}. 其概率密度函数如下: p(x;μ,Σ)=1(2π)n/2|Σ原创 2015-12-11 16:59:44 · 1807 阅读 · 0 评论