机器学习
文章平均质量分 79
Duckie-duckie
这个作者很懒,什么都没留下…
展开
-
条件随机场(conditional random field,CRF)
条件随机场(conditional random field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题,本章仅论及它在标注问题的应用。因此主要讲述线性链(linear chain)条件随机场,这时,问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法...原创 2017-11-15 16:47:32 · 6642 阅读 · 1 评论 -
Jacobian矩阵和Hessian矩阵
1. Jacobian在向量分析中, 雅可比矩阵是一阶偏导数以一定方式排列成的矩阵, 其行列式称为雅可比行列式. 还有, 在代数几何中, 代数曲线的雅可比量表示雅可比簇:伴随该曲线的一个代数群, 曲线可以嵌入其中. 它们全部都以数学家卡尔·雅可比(Carl Jacob, 1804年10月4日-1851年2月18日)命名;英文雅可比量”Jacobian”可以发音为[ja ˈko bi ən]原创 2017-11-13 15:13:46 · 369 阅读 · 0 评论 -
决策树(一)ID3算法
1. 决策树的基本认识 决策树是一种依托决策而建立起来的一种树。在机器学习中,决策树是一种预测模型,代表的是一种对 象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某个可能 的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。决策树仅 有单一输出,如果有多个输出,可以分别建立独原创 2017-11-13 16:11:51 · 468 阅读 · 0 评论 -
随机森林(Random Forest)
1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最初,我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大原创 2017-11-14 13:01:01 · 603 阅读 · 0 评论 -
xgboost算法原理
1、xgboost是什么全称:eXtreme Gradient Boosting 基础:GBDT 所属:boosting迭代型、树类算法。 适用范围:分类、回归 优点:速度快、效果好、能处理大规模数据、支持多种语言、支 持自定义损失函数等等。 缺点:发布时间短(2014),工业领域应用较少,待检验2、基础知识,GBDTxgboost是在GBDT的基础上对原创 2017-11-14 11:29:15 · 669 阅读 · 0 评论 -
解决决策树的过拟合
1. 避免过拟合问题表1描述的算法增长树的每一个分支的深度,直到恰好能对训练样例完美地分类。然而这个策略并非总是行得通的,事实上,当数据中有噪声,或训练样例的数量太少以至于不能产生目标函数的有代表性的采样时,这个策略便会遇到困难。在以上任一种情况发生时,这个简单的算法产生的树会过度拟合训练样例。表1 专用于学习布尔函数的ID3算法概要ID3是一种自顶向下增长树的贪婪算法,在原创 2017-11-14 10:21:13 · 3842 阅读 · 0 评论 -
决策树(三)cart算法
1. CART算法的认识 Classification And Regression Tree,即分类回归树算法,简称CART算法,它是决策树的一种实现,通常决策树主要有三种实现,分别是ID3算法,CART算法和C4.5算法。 CART算法是一种二分递归分割技术,把当前样本划分为两个子样本,使得生成的每个非叶子结点都有两个分支, 因此CART原创 2017-11-13 17:25:41 · 2669 阅读 · 0 评论 -
决策树(二)C4.5算法
1. C4.5算法简介 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。 C4.5由J.Ross Quinlan在ID3的原创 2017-11-13 16:45:14 · 1189 阅读 · 0 评论 -
广义线性模型(Generalized Linear Models)
指数分布族(The Exponential Family) 如果一个分布可以用如下公式表达,那么这个分布就属于指数分布族: 公式中y是随机变量;h(x)称为基础度量值(base measure); η称为分布的自然参数(natural parameter),也称为标准参数(canonical parameter); T(y)称为充分统原创 2017-10-26 11:08:39 · 2510 阅读 · 0 评论 -
集成学习之Bagging与Boosting
1. bagging的原理 在集成学习原理小结中,我们给Bagging画了下面一张原理图。 从上图可以看出,Bagging的弱学习器之间的确没有boosting那样的联系。它的特点在“随机采样”。那么什么是随机采样? 随机采样(bootsrap)就是从我们的训练集里面采集固定个数的样本,但是每采集一个样本后,都将样本放回。也就是说,之前采集到的样原创 2017-10-07 15:07:01 · 478 阅读 · 0 评论 -
强化学习(五)----- 时间差分学习(Q learning, Sarsa learning)
接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性:需要环境模型,即状态转移概率Psa状态值函数的估计是自举的(bootstrapping),即当前状态值函数的更新依赖于已知的其他状态值函数。相对的,蒙特卡罗方法的特点则有:可以从经验中学习不需要环境模型状态值函数的估计是相互独立的只能用于episode tasks而我们希原创 2017-10-30 21:23:44 · 5175 阅读 · 0 评论 -
强化学习(二)----- 马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。马尔可夫决策过程(Markov Decision Process, MDP)也具有马尔可夫性,原创 2017-10-30 21:19:36 · 921 阅读 · 0 评论 -
强化学习(三)----- MDP的动态规划解法
上一篇我们已经说到了,增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,使其在任意初始状态下,都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的增强学习)。那么如何求解最优策略呢?基本的解法有三种:动态规划法(dynamic programming methods)蒙特卡罗方法(Monte Carlo methods)原创 2017-10-30 21:20:38 · 725 阅读 · 0 评论 -
强化学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods)
1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基础的方法。一个简单的例子可以解释蒙特卡罗方法,假设我们需要计算一个不规则图形的面积,那么图形的不规则程度和分析性计算(比如积分)的复杂程度是成正比的。而采用蒙特卡罗方法是怎么计算的呢?首原创 2017-10-30 21:22:13 · 1861 阅读 · 0 评论 -
强化学习(一) ----- 基本概念
机器学习算法大致可以分为三种: 1. 监督学习(如回归,分类) 2. 非监督学习(如聚类,降维) 3. 增强学习什么是增强学习呢?增强学习(reinforcementlearning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一。定义: Reinforcement learning is learning w原创 2017-10-30 21:18:43 · 678 阅读 · 0 评论 -
局部加权线性回归
一、问题引入 我们现实生活中的很多数据不一定都能用线性模型描述。依然是房价问题,很明显直线非但不能很好的拟合所有数据点,而且误差非常大,但是一条类似二次函数的曲线却能拟合地很好。为了解决非线性模型建立线性模型的问题,我们预测一个点的值时,选择与这个点相近的点而不是所有的点做线性回归。基于这个思想,便产生了局部加权线性回归算法。在这个算法中,其他离一个点越近,权重越大,对回归系数的贡献就越原创 2017-10-26 10:26:45 · 776 阅读 · 0 评论 -
使用Apriori算法和FP-growth算法进行关联分析
1. 关联分析关联分析是在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集关联规则频繁项集(frequent item sets)是经常出现在一块儿的物品的集合,关联规则(association rules)暗示两种物品之间可能存在很强的关系。下面用一个例子来说明这两种概念:图1给出了某个杂货店的交易清单。交易号码商原创 2017-11-14 20:53:07 · 802 阅读 · 0 评论 -
受限玻尔兹曼机
1. RBM模型结构 玻尔兹曼机是一大类的神经网络模型,但是在实际应用中使用最多的则是RBM。RBM本身模型很简单,只是一个两层的神经网络,因此严格意义上不能算深度学习的范畴。不过深度玻尔兹曼机(Deep Boltzmann Machine,以下简称DBM)可以看做是RBM的推广。理解了RBM再去研究DBM就不难了,因此本文主要关注于RBM。 回到RBM的结构,它是一个原创 2017-12-30 16:46:42 · 737 阅读 · 0 评论 -
变分自编码器(Variational Autoencoder, VAE)
1. 神秘变量与数据集现在有一个数据集DX(dataset, 也可以叫datapoints),每个数据也称为数据点。我们假定这个样本受某种神秘力量操控,但是我们也无从知道这些神秘力量是什么?那么我们假定这股神秘力量有n个,起名字叫power1,power2,…,powern吧,他们的大小分别是z1,z2,…,zn,称之为神秘变量表示成一个向量就是z=⎛⎝⎜⎜⎜⎜z1z2⋮zn⎞⎠⎟原创 2017-12-28 17:25:05 · 2504 阅读 · 0 评论 -
自动编码器—Autoencoder
自动编码器Deep Learning最简单的一种方法是利用人工神经网络的特点,人工神经网络(ANN)本身就是具有层次结构的系统,如果给定一个神经网络,我们假设其输出与输入是相同的,然后训练调整其参数,得到每一层中的权重。自然地,我们就得到了输入I的几种不同表示(每一层代表一种表示),这些表示就是特征。自动编码器就是一种尽可能复现输入信号的神经网络。为了实现这种复现,自动编码器就原创 2017-12-28 17:18:02 · 27642 阅读 · 1 评论 -
深度学习常用的优化算法
原创 2017-12-18 16:45:15 · 688 阅读 · 0 评论 -
深度学习—随机梯度下降(SGD)
原创 2017-12-18 14:16:54 · 9492 阅读 · 2 评论 -
深度学习正则化之dropout
原创 2017-12-16 16:59:15 · 368 阅读 · 0 评论 -
L1以及L2正则化
正则化(Regularization)机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm和ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2原创 2017-10-04 16:31:50 · 407 阅读 · 0 评论 -
GBDT:梯度提升决策树
综述 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。 GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于原创 2017-11-14 12:37:06 · 285 阅读 · 0 评论 -
拉格朗日对偶问题
下面的最优化问题: 目标函数是f(w),下面是等式约束。通常解法是引入拉格朗日算子,这里使用来表示算子,得到拉格朗日公式为 L是等式约束的个数。 然后分别对w和求偏导,使得偏导数等于0,然后解出w和。至于为什么引入拉格朗日算子可以求出极值,原因是f(w)的dw变化方向受其他不等式的约束,dw的变化方向与f(w原创 2017-10-04 14:47:37 · 691 阅读 · 0 评论 -
机器学习中距离和相似性度量方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0 // 到自原创 2017-10-24 12:23:18 · 233 阅读 · 0 评论 -
支持向量回归-SVR
对于一般的回归问题,给定训练样本D={(x1,y1),(x2,y2),...,(xn,yn)},yi€R,我们希望学习到一个f(x)使得,其与y尽可能的接近,w,b是待确定的参数。在这个模型中,只有当发f(x)与y完全相同时,损失才为零,而支持向量回归假设我们能容忍的f(x)与之间最多有ε的偏差,当且仅当f(x)与y的差别绝对值大于ε时,才计算损失,此时相当于以f(x)为中心,构建一个宽度为2ε的原创 2017-10-26 15:32:25 · 67889 阅读 · 3 评论 -
经验风险最小化(Empirical Risk Minization,ERM)
一、偏差方差权衡1. 偏差与方差 回顾之前在讨论线性回归问题时,通常存在以下三种情况:图1,用一条直线拟合一个呈现二次结构的散点,无论训练样本怎样增多,一次函数都无法准确地表示出二次函数。我们认为它具有高偏差(high bias),表现出欠拟合(underfit)。图3,用一条五次多项式函数来拟合数据,对于数据的结果,得到的仍然不是一个好的模型,算法拟合出了原创 2017-11-15 10:46:34 · 10684 阅读 · 1 评论 -
因子分析(Factor Analysis)
1 问题 之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m<<n的时候,使用梯度下降法进行回归时,如果初值不同,得到的参数结果会有很大偏差(因为方程数小于参数个数)。另外,如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时,也会有问题原创 2017-11-15 17:02:05 · 4807 阅读 · 0 评论 -
最大熵模型
原创 2017-11-15 15:58:14 · 247 阅读 · 0 评论 -
模型选择
继续上节内容介绍学习理论,介绍模型选择算法,大纲内容为:交叉验证特征选择 回顾上节的偏差方差权衡现象,若选择过于简单的模型,偏差过高,可能会导致欠拟合;若选择过于复杂的模型,方差过高,可能会导致过拟合,同样模型的一般适用性不好。 模型复杂度:多项式的次数或参数的个数。 (1)尝试选择多项式的次数原创 2017-11-15 10:54:43 · 498 阅读 · 0 评论 -
模型评估
学习模型的评估与选择Content 6. 学习模型的评估与选择 6.1 如何调试学习算法 6.2 评估假设函数(Evaluating a hypothesis) 6.3 模型选择与训练/验证/测试集(Model selection and training/validation/test sets) 6.4 偏差与方差 6.4.原创 2017-11-13 15:49:22 · 2136 阅读 · 0 评论 -
高斯混合模型(GMM)
高斯混合模型GMM是一个非常基础并且应用很广的模型。对于它的透彻理解非常重要。网上的关于GMM的大多资料介绍都是大段公式,而且符号表述不太清楚,或者文笔非常生硬。本文尝试用通俗的语言全面介绍一下GMM,不足之处还望各位指正。首先给出GMM的定义这里引用李航老师《统计学习方法》上的定义,如下图:定义很好理解,高斯混合模型是一种混合模型,混合的基本分布是高斯分布而已。原创 2017-11-01 10:34:00 · 577 阅读 · 0 评论 -
坐标上升法算法
坐标上升法(Coordinate Ascent)每次通过更新函数中的一维,通过多次的迭代以达到优化函数的目的。假设需要求解的优化问题的具体形式如下:maxαW(α1,α2,⋯,αm)其中,W是向量α⃗ 的函数。更新过程为每次固定除αi以外的参数,求得满足条件的αi,直到算法收敛,具体的算法过程如下所示: (图片来自参考文献1)下面原创 2017-11-01 17:30:05 · 1420 阅读 · 0 评论 -
长短时记忆网络(LSTM)的训练
长短时记忆网络的训练熟悉我们这个系列文章的同学都清楚,训练部分往往比前向计算部分复杂多了。LSTM的前向计算都这么复杂,那么,可想而知,它的训练算法一定是非常非常复杂的。现在只有做几次深呼吸,再一头扎进公式海洋吧。LSTM训练算法框架LSTM的训练算法仍然是反向传播算法,对于这个算法,我们已经非常熟悉了。主要有下面三个步骤:前向计算每个神经元的输出值,对于L原创 2017-10-09 01:34:20 · 22413 阅读 · 4 评论 -
长短时记忆网络(LSTM)基础
往期回顾在上一篇文章中,我们介绍了循环神经网络以及它的训练算法。我们也介绍了循环神经网络很难训练的原因,这导致了它在实际应用中,很难处理长距离的依赖。在本文中,我们将介绍一种改进之后的循环神经网络:长短时记忆网络(Long Short Term Memory Network, LSTM),它成功的解决了原始循环神经网络的缺陷,成为当前最流行的RNN,在语音识别、图片描述、自然语言处理等许多原创 2017-10-09 01:31:38 · 5000 阅读 · 1 评论 -
循环神经网络应用举例
RNN的应用举例——基于RNN的语言模型现在,我们介绍一下基于RNN语言模型。我们首先把词依次输入到循环神经网络中,每输入一个词,循环神经网络就输出截止到目前为止,下一个最可能的词。例如,当我们依次输入:我 昨天 上学 迟到 了神经网络的输出如下图所示:其中,s和e是两个特殊的词,分别表示一个序列的开始和结束。向量化我们知道,神经原创 2017-10-09 01:29:21 · 7977 阅读 · 0 评论 -
循环神经网络的训练(2)
权重梯度的计算现在,我们终于来到了BPTT算法的最后一步:计算每个权重的梯度。首先,我们计算误差函数E对权重矩阵W的梯度∂E∂W。上图展示了我们到目前为止,在前两步中已经计算得到的量,包括每个时刻t 循环层的输出值st,以及误差项δt。回忆一下我们在文章零基础入门深度学习(3) - 神经网络和反向传播算法介绍的全连接网络的权重梯度计算算法:只要知道了任意一个时刻的误差项δt,以...原创 2017-10-09 01:27:35 · 508 阅读 · 0 评论 -
循环神经网络的训练(1)
循环神经网络的训练循环神经网络的训练算法:BPTTBPTT算法是针对循环层的训练算法,它的基本原理和BP算法是一样的,也包含同样的三个步骤:前向计算每个神经元的输出值;反向计算每个神经元的误差项δj值,它是误差函数E对神经元j的加权输入netj的偏导数;计算每个权重的梯度。最后再用随机梯度下降算法更新权重。循环层如下图所示:前原创 2017-10-09 01:24:54 · 1402 阅读 · 0 评论