![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 87
yzheately
这个作者很懒,什么都没留下…
展开
-
Class-Specific Hough Forests for Object Detection
Hough forest可以看作classification forest和Regression forest的结合体,即具有classification forest的特性也具有Regression forest的特性,在节点分列时同时考虑了分类与回归,在本文中就是class-label uncertainty与offset uncertainty1、Buildi原创 2015-11-13 16:26:19 · 1023 阅读 · 0 评论 -
学习理论-模型选择-2-训练样本数量与误差上界
在模型选择-1-问题引入中我们知道,我们要获得尽可能小的泛化误差。下面让我们一起看看泛化误差与样本数量和模型数量的关系。当H\mathcal H中模型数有限时证明一致收敛性我们假设H={h1,...,hk}\mathcal H =\{h_1,...,h_k\},这里只考虑二分类情况,即H\mathcal H中每个模型都能够将样本X\mathcal X映射到{0,1}\{0,1\}。 假如选定H\m原创 2016-04-09 23:33:36 · 8917 阅读 · 0 评论 -
学习理论-在线学习
之前的学习方法都是使用大量样本训练一个模型,然后使用模型去做预测,这里方法称为batch learning(批学习)。 这里让我们来看看另一种学习方式,online learning(在线学习)。 在线学习与批学习的不同之处是,在线学习在训练的同时也做出预测,之后系统将预测是否正确反馈给学习系统,进而更新参数。假如我们有样本(x(1),y(1)),(x(2),y(2)),...,(x(m),y(原创 2016-04-13 20:45:55 · 8135 阅读 · 0 评论 -
K-means聚类
参考 http://www.cnblogs.com/jerrylead聚类就是将样本{x1,x2,...xnx_1,x_2,...x_n}按照属性分类,注意这里样本的表已经不再是(x,y)了,现在只有属性x,因此聚类属于非监督学习法。K-means聚类,就是将样本分为k类,其思想是: 1、先随机选择k个聚类中心(即随机选择k个样本) 2、将每个样本划分到与它距离最小的中心所属类别 3、根据2原创 2016-04-14 09:35:30 · 621 阅读 · 0 评论 -
线性回归-2-梯度下降
考虑下面的训练样本: 我们希望通过房屋面积和卧室数量估计房屋价格。 这在里,输入xx是一个2维的向量。 并且我们用x(i)1x_1^{(i)}表示训练集中第ii个样本的第一个特征(这里是居住面积),用x(i)2x_2^{(i)}表示第ii个样本的卧室数。 首先我们假设y关于x的线性函数为: hθ(x)=θ0+θ1x1+θ2x2y关于x的线性函数为:\ h_\theta(x)=\theta原创 2016-03-29 11:31:50 · 549 阅读 · 0 评论 -
EM(Expectation-Maximization)算法-问题引入
参考 http://www.cnblogs.com/jerrylead高斯混合模型下图以一维坐标系中的几个样本为例来说明混合高斯模型 由图中可以看出,样本的分布情况可以由两个高斯分布来近似表示。这玩意就叫混合高斯模型。 简单的说就是:m个样本{x1,...xm}\{x_1,...x_m\},可以分为k类,每个类别都服从高斯分布。EM算法给定训练样本{x1,...xm}\{x_1,...x_原创 2016-04-14 15:59:53 · 3790 阅读 · 0 评论 -
Decision Tree and Regression Tree
决策树在机器学习中常用来解决分类问题,用以解决非连续性问题。回归树针对连续性问题,输出结果往往是一个具体的值决策树是多分枝的,即多叉树,决策树的每个叶节点代表一个类,当测试样例从根节点沿着某条路径到达某个叶节点时,该测试样例便被决策树判断为该叶节点所对应的类别决策树创建的算法主要有ID3,C4.5,CART;其中用CART方法创建的称为分类回归树,即可解决分类问题也能解决回归问题,是目原创 2015-10-01 09:34:25 · 2991 阅读 · 0 评论 -
分类-3-生成学习-2-高斯判别分析、协方差
参考 http://www.cnblogs.com/jerrylead多元高斯分布多变量高斯分布描述的是n维随机变量的分布情况,这里的μ变成了向量,σ也变成了矩阵Σ。写作N(μ,Σ)。其中Σ(协方差矩阵)是一个半正定的矩阵,μ是高斯分布的均值,下面给出它的概率密度函数:多变量高斯分布描述的是 n维随机变量的分布情况,这里的\mu变成了向量, \sigma也变成了矩阵\Sigma。写作\mathca原创 2016-04-06 15:09:39 · 4748 阅读 · 0 评论 -
主成分分析(PCA)-介绍
转载 http://www.cnblogs.com/jerrylead问题真实的训练数据总是存在各种各样的问题:1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。 2、 拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。我们知道要学好数学,需要有浓厚的转载 2016-04-21 13:58:23 · 983 阅读 · 0 评论 -
主成分分析(PCA)-理论基础
转载 http://www.cnblogs.com/jerrylead要解释为什么协方差矩阵的特征向量可以将原始特征映射到 k 维理想特征,我看到的有三个理论:分别是最大方差理论、最小错误理论和坐标轴相关度理论。这里简单探讨前两种,最后一种在讨论PCA 意义时简单概述。最大方差理论在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在横轴上转载 2016-04-21 16:50:30 · 5168 阅读 · 0 评论 -
独立成分分析(Independent Component Analysis)
转载http://www.cnblogs.com/jerrylead/archive/2011/04/19/2021071.html问题:1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢?2、经典的鸡尾酒宴会问题(cocktail party problem)。假设在party中有n个人,他们可以同时说话,我们也在房间中转载 2016-04-23 20:04:10 · 477 阅读 · 0 评论 -
因子分析
转载 http://www.cnblogs.com/jerrylead问题之前我们考虑的训练数据中样例x(i)x^{(i)}的个数 m 都远远大于其特征个数 n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数 m 太小,甚至 m<<nm<<n 的时候,使用梯度下降法进行回归时, 如果初值不同, 得到的参数结果会有很大偏差(因为方程数小于参数个数)。另外,如果使用多元高斯分布(Mul转载 2016-04-18 23:33:08 · 2038 阅读 · 0 评论 -
增强学习-马尔科夫决策过程
转载http://www.cnblogs.com/jerrylead/archive/2011/05/13/2045309.html在之前的讨论中,我们总是给定一个样本x,然后给或者不给label y。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题,很难有这么规则的样本。比如,四足机器人的控制问题,刚开始都不知道应该让其动那条腿,在移动过程中,也不知道怎么让机器人自转载 2016-04-24 00:17:39 · 1905 阅读 · 0 评论 -
线性回归-3-最小二乘法
矩阵求导假设存在一个从矩阵到实数的映射:f:Rm×n↦Rf: \mathbb R^{m \times n} \mapsto \mathbb R。对于矩阵A我们定义f(A)f(A)的导数如下(它是输入矩阵的梯度): 因此∇Af(A)\nabla_A f(A)也是一个m×nm\times n的矩阵。假如,A到实数的映射f:R2×2↦R为:f(A)=32A11+5A212+A21A22f: \mat原创 2016-04-02 12:20:28 · 1341 阅读 · 0 评论 -
线性回归-5-代价函数
还记的我们的代价函数吧:J=12∑mi=1(y(i)−θTx(i))2还记的我们的代价函数吧:J=\frac{1}{2}\sum^m_{i=1}(y^{(i)}-\theta^Tx^{(i)})^2现在让我们来看看为什么选择它来作为代价函数。 假设我们的模型如下: y(i)=θTx(i)+ε(i)y^{(i)}=\theta^Tx^{(i)}+ \varepsilon^{(i)} 其中ε(i)原创 2016-04-02 16:04:33 · 2181 阅读 · 1 评论 -
EM算法-数学原理及其证明
参考http://blog.csdn.net/zouxy09/article/details/8537620 参考 http://www.cnblogs.com/jerrylead之前介绍了EM算法在混合高斯模型中的应用,现在让我们来看看问什么EM算法可以用于这类问题。 首先介绍一下Jensen 不等式Jensen 不等式我们知道,如果设 ff 是定义域为实数的函数,如果对于所有的实数xx原创 2016-04-16 20:52:43 · 32761 阅读 · 17 评论 -
学习理论-贝叶斯统计和正则化
之前为了降低产生过拟合的可能性,我们从样本的所有属性中选取一部分属性集用以训练模型,这里介绍一种防止过拟合的不同的方法—正则化,这种方法会保留所有参数。原创 2016-04-11 21:10:26 · 4028 阅读 · 0 评论 -
学习理论-模型选择-3-模型训练规则、特征选择
假设可选的模型集合是M={M1,M2,...,Md}\mathcal M=\{ M_1,M_2,...,M_d\},它可能包含了 SVM、logistic回归、神经网络等模型。 在上一篇中我们已经知道,我们要选择使得泛化误差ϵ(h^)\epsilon(\hat h)最小的模型,这时为了选择模型,我们可能会想到如下方法: 1、用训练样本去训练M\mathcal M中的每一个模型,之后便可以的到每个原创 2016-04-11 10:04:01 · 2877 阅读 · 0 评论 -
随机森林原理
随机森林是近年来机器学习中常用的方法,典型的随机森林是由一系列的二叉决策树构成,森林中树的数目由我们自己根据情况来定。随机森林的建造是在用随机森林解决问题时最主要的问题。随机森林的建造:1、Sampling抽样是随机森林中每棵树的建造的第一步,采样利用Bootstrap的方式。Bootstrap:假设训练样本一共有N个,每次随机的从样本中有放回抽取一个,一共抽取N次,用这抽取的原创 2015-10-01 11:09:31 · 2078 阅读 · 0 评论 -
线性回归-4-欠拟合、过拟合与局部加权线性回归
欠拟合、过拟合在线性回归问题中,我们可以通过改变θ的个数或者x的指数大小来获得不同形状的拟合曲线\theta的个数或者x的指数大小来获得不同形状的拟合曲线看下面的图: 左边的曲线是在假设y=θ0+θ1xy=\theta_0+\theta_1x时的拟合结果,但显然中间的曲线要比左边的拟合效果更好。我们称左边的情况为欠拟合(underfitting)。 这样看来右边的不是比左边更好吗?!。。。N原创 2016-04-02 14:46:45 · 1874 阅读 · 0 评论 -
线性回归-1-问题引入
线性回归的目的是用训练样本拟合出一条曲线(或超平面)。假设我们有如下关于房屋价格和居住面积的样本数据: 我们可以将它画在二维表中如下: 利用这些数据,我们可以拟合出一条曲线,用以估计其它房屋的价格。在这里我们用x(i)x^{(i)}表示“输入”(即居住面积),也称之为特征;用y(i)y^{(i)}表示“输出”(即房屋中的价格)。对于一对x(i),y(i)x^{(i)},y^{(i)}我们称之原创 2016-03-29 10:34:57 · 565 阅读 · 0 评论 -
分类-1-逻辑回归(Logistic regression)、感知学习算法(perceptron learning algorithm)、牛顿迭代法
逻辑回归(Logistic regression)我们现在只考虑二分类,即y∈{0,1}y\in \{0,1\}。 类似于线性回归问题,我们同样定义一个估计(hypothesis)函数hθ(x)h_\theta(x)。显然我们的输出值要限定在{0,1}\{0,1\}之间会更加有利。因此选择模型: hθ(x)=g(θTx)=11+e−θTxwhereg(z)=11+e−zh_\theta(x)=g原创 2016-04-02 18:02:31 · 3089 阅读 · 0 评论 -
分类-2-softmax
softmax是一个可以解决多分类问题的方法。 假如我们的输出y∈{1,2,...,k}假如我们的输出y\in\{1,2,...,k\},即共有k个类别,而不是之前的二分类问题。 此时我们使用ϕ1,...,ϕk\phi_1,...,\phi_k来表示输出,即样本属于每个类别的概率。显然对于任意的一个样本有ϕ1+...+ϕk=1\phi_1+...+\phi_k=1,故ϕk\phi_k可由其他ϕ表原创 2016-04-03 21:10:55 · 1844 阅读 · 0 评论 -
SVM-5-核的有效性
参考 http://www.cnblogs.com/jerrylead问题:给定一个函数 K,我们能否使用 K 来替代计算 ϕ(x)Tϕ(z)\phi(x)^T\phi(z),也就说,是否能够找出一个ϕ\phi,使得对于所有的 x 和 z, 都有K(x,z)=ϕ(x)Tϕ(z)K(x,z)=\phi(x)^T\phi(z)? 比如给出了K(x,z)=(xTz)2K(x,z)=(x^Tz)^2,怎原创 2016-03-24 11:33:36 · 851 阅读 · 0 评论 -
SVM-4-核函数
在SVM我们经常不是直接使用样本的原始属性(attribute),假如x是某样本的一个属性,我们经常用到类似x2,x3x^2,x^3等。就像在线性回归问题中,当我们需要拟合出一个曲线时就可能用到x,x2,x3x,x^2,x^3等。此时就相当于是把xx映射到x,x2,x3x,x^2,x^3(我们称它们为特征(features)),用x,x2,x3x,x^2,x^3代替了xx。我们用下式表示这种映射:原创 2016-03-23 00:30:55 · 745 阅读 · 0 评论 -
SVM-3-最优间隔分类器
在第一篇(SVM-1-问题描述)中我们得到了下面的优化问题:minδ,w,b 12||w||2s.t. yi(wTxi+b)≥1, i=1,...,m\min_{\delta,w,b}\ \frac{1}{2}||w||^2\\s.t.\ y^i(w^Tx^i+b) \geq 1,\ i=1,...,m 把约束条件写成下面的形式: gi(w)=−yi(wTx∗+b)+1≤0g_i(w) = -原创 2016-03-20 17:18:08 · 1140 阅读 · 1 评论 -
SVM-2-拉格朗日与对偶问题
1、引入拉格朗日乘法对于下面的最优化问题:minw f(w)min_w\ f(w) s.t. hi(w)=0, i=1,...,ls.t.\ h_i(w)=0,\ i=1,...,l 通常的解法是引入拉格朗日算子: L(w,β)=f(w)+∑i=1lβihi(w)L(w,\beta) =f(w)+\sum^l_{i=1}\beta_ih_i(w) 注: 1、所谓最优化问题,即在约束条件(这原创 2016-03-19 12:39:35 · 929 阅读 · 0 评论 -
SVM-1-问题描述
SVM(支持向量机)其本质就是求解一个平面g(x)=wTx+bg(x)=w^Tx+b(二维是直线,三维是平面,再高点维度就叫超平面)将样本划分为两类(正负样本)。这里用1,-1来表示正负样本。 注:g(x)g(x)不是分类的表达式,分类面的表达式是g(x)=0g(x)=0,即wTx+b=0w^Tx+b=0。对于g(x)=wTx+bg(x)=w^Tx+b当有一个样本xix_i需要判别的时候,我们就看原创 2016-03-18 14:29:38 · 1002 阅读 · 0 评论 -
SVM-6-规则化和不可分情况处理
我们之前讨论的情况都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以将特征映射到高维,这样很可能就可分了。然而,映射后我们也不能保证一定可分。从下图我们可以看出,当样本中有一个离群点时就会很大的影响到的超平面的位置。再有甚者,如果离群点在另外一个类中,那么这时候在当前维度就是线性不可分了。而我们也没有必要因为少量的这种样本而去继续映射升维。那怎么办呢,我们需要将模型进行调整,以保证在不可分原创 2016-03-24 15:46:19 · 1002 阅读 · 2 评论 -
SVM-7-SMO(序列最小优化算法)
坐标上升法首先介绍坐标上升法(Coordinate ascent): 假设要解决下面的没有约束的最优化问题: maxα W(α1,α2,...,αm)\max_\alpha \ W(\alpha_1,\alpha_2,...,\alpha_m). 对于这类最优化问题,我们可以使用地图下降法或者牛顿迭代法,这里我们使考虑使用坐标上升法: 也就是说,每次循环我们我们固定除当前αi\al原创 2016-03-24 18:13:01 · 3961 阅读 · 0 评论 -
分类-3-生成学习-1-问题引入
在之前的学习方法中,我们的目的是求p(y|x,θ),即求y在x的条件下的概率。例如在逻辑回归中我们的模型是hθ(x)=g(θTx),其输出结果就是预测样本属于某个类别的概率。对于二分类来说,它们的目的就是为了找到一个分割线(超平面)将样本划分为2类。当测试一个输入样本时,只需要看这个样本在分割线(超平面)的哪一侧。在之前的学习方法中,我们的目的是求p(y|x,\theta),即求y在x的条件下的概率原创 2016-04-05 20:52:15 · 704 阅读 · 0 评论 -
分类-3-生成学习-3-朴素贝叶斯模型、laplace平滑、多元伯努利事件模型、多项式事件模型
参考 http://www.cnblogs.com/jerrylead多元伯努利事件模型( multi-variate Bernoulli event model)在 GDA 中,我们要求特征向量 x 是连续实数向量。如果 x 是离散值的话,可以考虑采用朴素贝叶斯的分类方法。 假如要分类垃圾邮件和正常邮件。 我们用一个向量x⃗ (m×1)表示一个包含m个单词的字典。当邮件中出现字典(x⃗ )中原创 2016-04-06 21:26:55 · 6972 阅读 · 0 评论 -
学习理论-模型选择-1-问题引入
问题引入偏差与方差的权衡是统计学中最核心的问题,在机器学习中,它们是导致欠拟合和过拟合的原因。 对于线性回归问题,我们到底是该选择简单的线性模型y=θ0+θ1xy=\theta_0+\theta_1x还是选择诸如y=θ0+θ1x+...+θ5x5y=\theta_0+\theta_1x+...+\theta_5x^5这样复杂些的模型呢?我么先看下图 上图我们之前就见到过,最左面的为欠拟合,因原创 2016-04-09 13:08:01 · 1169 阅读 · 0 评论 -
Windows编译Caffe指南
下载1.下载caffe GitHub - BVLC/caffe at windows原创 2016-06-16 15:12:21 · 1353 阅读 · 0 评论