2017年10月_Duckie-duckie

原创强化学习（五）----- 时间差分学习(Q learning, Sarsa learning)

接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点，对于动态规划算法有如下特性：需要环境模型，即状态转移概率Psa状态值函数的估计是自举的(bootstrapping)，即当前状态值函数的更新依赖于已知的其他状态值函数。相对的，蒙特卡罗方法的特点则有：可以从经验中学习不需要环境模型状态值函数的估计是相互独立的只能用于episode tasks而我们希

2017-10-30 21:23:44 5175

原创强化学习（四） ----- 蒙特卡罗方法(Monte Carlo Methods)

1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法，它使用随机数（或伪随机数）来解决计算的问题，是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗，而蒙特卡罗方法正是以概率为基础的方法。一个简单的例子可以解释蒙特卡罗方法，假设我们需要计算一个不规则图形的面积，那么图形的不规则程度和分析性计算（比如积分）的复杂程度是成正比的。而采用蒙特卡罗方法是怎么计算的呢？首

2017-10-30 21:22:13 1861

原创强化学习（三）----- MDP的动态规划解法

上一篇我们已经说到了，增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略，使其在任意初始状态下，都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的增强学习)。那么如何求解最优策略呢？基本的解法有三种：动态规划法(dynamic programming methods)蒙特卡罗方法(Monte Carlo methods)

2017-10-30 21:20:38 725

原创强化学习（二）----- 马尔可夫决策过程MDP

1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain)，了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。马尔可夫决策过程(Markov Decision Process, MDP)也具有马尔可夫性，

2017-10-30 21:19:36 921

原创强化学习（一） ----- 基本概念

机器学习算法大致可以分为三种： 1. 监督学习(如回归，分类) 2. 非监督学习(如聚类，降维) 3. 增强学习什么是增强学习呢？增强学习（reinforcementlearning, RL）又叫做强化学习，是近年来机器学习和智能控制领域的主要方法之一。定义: Reinforcement learning is learning w

2017-10-30 21:18:43 678

原创隐马尔可夫模型（HMM）

隐马尔可夫模型 (Hidden Markov Model，HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中，随后在语言识别，自然语言处理以及生物信息等领域体现了很大的价值。平时，经常能接触到涉及 HMM 的相关文章，一直没有仔细研究过，都是蜻蜓点水，因此，想花一点时间梳理下，加深理解。考虑下面交通灯的例子，一个序列可能是红-红/橙-绿-橙-红。这个序列可

2017-10-30 20:32:30 324

原创（EM算法）The EM Algorithm

EM是我一直想深入学习的算法之一，第一次听说是在NLP课中的HMM那一节，为了解决HMM的参数估计问题，使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式回顾优化理论中的一些概念。设f是定义域为实数的函数，如果对于所有的实数x，，那么f是凸函数。当x是

2017-10-30 17:47:36 804

原创高斯过程回归（Gaussian Process Regression）

先说一说高斯过程回归的 Intuition:假设有一个未知的函数f : R–> R ，在训练集中，我们有3个点 x_1, x_2, x_3, 以及这3个点对应的结果，f1,f2,f3. (如图) 这三个返回值可以有噪声，也可以没有。我们先假设没有。so far so good. 没什么惊讶的事情。高斯过程回归的关键假设是：给定一些

2017-10-29 20:07:55 22536 2

原创朴素贝叶斯分类器

模型概述朴素贝叶斯方法，是指朴素：特征条件独立贝叶斯：基于贝叶斯定理根据贝叶斯定理，对一个分类问题，给定样本特征x，样本属于类别y的概率是 p(y|x)=p(x|y)p(y)p(x)。。。。。。（1）在这里，x是一个特征向量，将设x维度为M。因为朴素的假设，即特征条件独立，根据全概率公式展开，公式（1）可以表达为 p(y=ck|x)=∏M

2017-10-29 16:05:29 343

对于一般的回归问题，给定训练样本D={(x1,y1),(x2,y2),...,(xn,yn)},yi€R,我们希望学习到一个f（x）使得，其与y尽可能的接近，w，b是待确定的参数。在这个模型中，只有当发f(x)与y完全相同时，损失才为零，而支持向量回归假设我们能容忍的f(x)与之间最多有ε的偏差，当且仅当f(x)与y的差别绝对值大于ε时，才计算损失，此时相当于以f(x)为中心，构建一个宽度为2ε的

2017-10-26 15:32:25 67892 3

原创广义线性模型（Generalized Linear Models）

指数分布族（The Exponential Family）如果一个分布可以用如下公式表达，那么这个分布就属于指数分布族：公式中y是随机变量；h(x)称为基础度量值（base measure）； η称为分布的自然参数（natural parameter），也称为标准参数（canonical parameter）； T(y)称为充分统

2017-10-26 11:08:39 2510

原创局部加权线性回归

一、问题引入我们现实生活中的很多数据不一定都能用线性模型描述。依然是房价问题，很明显直线非但不能很好的拟合所有数据点，而且误差非常大，但是一条类似二次函数的曲线却能拟合地很好。为了解决非线性模型建立线性模型的问题，我们预测一个点的值时，选择与这个点相近的点而不是所有的点做线性回归。基于这个思想，便产生了局部加权线性回归算法。在这个算法中，其他离一个点越近，权重越大，对回归系数的贡献就越

2017-10-26 10:26:45 776

原创 k-means聚类算法

K-means也是聚类算法中最简单的一种了，但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中，那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM等都是有类别标签y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y，只有特征x，比如

2017-10-26 10:14:11 1124

原创机器学习中距离和相似性度量方法

在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如 K 最近邻（KNN）和 K 均值（K-Means）等等。根据数据特性的不同，可以采用不同的度量方法。一般而言，定义一个距离函数 d(x,y), 需要满足下面几个准则：1) d(x,x) = 0 // 到自

2017-10-24 12:23:18 233

原创 softmax回归

我们知道Logistic回归只能进行二分类，因为它的随机变量的取值只能是0或者1，那么如果我们面对多分类问题怎么办？比如要将一封新收到的邮件分为垃圾邮件，个人邮件，还是工作邮件；根据病人的病情预测病人属于哪种病。诸如此类问题都涉及到多分类，那么今天要讲的softmax回归能解决这类问题。在Logistic回归中，样本数据的值，而在softmax回归中，其中是类别种数，比

2017-10-17 22:54:53 244

原创递归神经网络

往期回顾在前面的文章中，我们介绍了循环神经网络，它可以用来处理包含序列结构的信息。然而，除此之外，信息往往还存在着诸如树结构、图结构等更复杂的结构。对于这种复杂的结构，循环神经网络就无能为力了。本文介绍一种更为强大、复杂的神经网络：递归神经网络 (Recursive Neural Network, RNN)，以及它的训练算法BPTS (Back Propagation Through

2017-10-09 01:39:57 6143 1

原创长短时记忆网络(LSTM)的训练

长短时记忆网络的训练熟悉我们这个系列文章的同学都清楚，训练部分往往比前向计算部分复杂多了。LSTM的前向计算都这么复杂，那么，可想而知，它的训练算法一定是非常非常复杂的。现在只有做几次深呼吸，再一头扎进公式海洋吧。LSTM训练算法框架LSTM的训练算法仍然是反向传播算法，对于这个算法，我们已经非常熟悉了。主要有下面三个步骤：前向计算每个神经元的输出值，对于L

2017-10-09 01:34:20 22416 4

原创长短时记忆网络(LSTM)基础

往期回顾在上一篇文章中，我们介绍了循环神经网络以及它的训练算法。我们也介绍了循环神经网络很难训练的原因，这导致了它在实际应用中，很难处理长距离的依赖。在本文中，我们将介绍一种改进之后的循环神经网络：长短时记忆网络(Long Short Term Memory Network, LSTM)，它成功的解决了原始循环神经网络的缺陷，成为当前最流行的RNN，在语音识别、图片描述、自然语言处理等许多

2017-10-09 01:31:38 5000 1

原创循环神经网络应用举例

RNN的应用举例——基于RNN的语言模型现在，我们介绍一下基于RNN语言模型。我们首先把词依次输入到循环神经网络中，每输入一个词，循环神经网络就输出截止到目前为止，下一个最可能的词。例如，当我们依次输入：我昨天上学迟到了神经网络的输出如下图所示：其中，s和e是两个特殊的词，分别表示一个序列的开始和结束。向量化我们知道，神经

2017-10-09 01:29:21 7980

原创循环神经网络的训练（2）

权重梯度的计算现在，我们终于来到了BPTT算法的最后一步：计算每个权重的梯度。首先，我们计算误差函数E对权重矩阵W的梯度∂E∂W。上图展示了我们到目前为止，在前两步中已经计算得到的量，包括每个时刻t 循环层的输出值st，以及误差项δt。回忆一下我们在文章零基础入门深度学习(3) - 神经网络和反向传播算法介绍的全连接网络的权重梯度计算算法：只要知道了任意一个时刻的误差项δt，以...

2017-10-09 01:27:35 508

原创循环神经网络的训练（1）

循环神经网络的训练循环神经网络的训练算法：BPTTBPTT算法是针对循环层的训练算法，它的基本原理和BP算法是一样的，也包含同样的三个步骤：前向计算每个神经元的输出值；反向计算每个神经元的误差项δj值，它是误差函数E对神经元j的加权输入netj的偏导数；计算每个权重的梯度。最后再用随机梯度下降算法更新权重。循环层如下图所示：前

2017-10-09 01:24:54 1403

原创循环神经网络基础

往期回顾在前面的文章系列文章中，我们介绍了全连接神经网络和卷积神经网络，以及它们的训练和使用。他们都只能单独的取处理一个个的输入，前一个输入和后一个输入是完全没有关系的。但是，某些任务需要能够更好的处理序列的信息，即前面的输入和后面的输入是有关系的。比如，当我们在理解一句话意思时，孤立的理解这句话的每个词是不够的，我们需要处理这些词连接起来的整个序列；当我们处理视频的时候，我们也不能只单独

2017-10-09 01:14:49 1126 1

原创卷积神经网络的训练

卷积神经网络的训练和全连接神经网络相比，卷积神经网络的训练要复杂一些。但训练的原理是一样的：利用链式求导计算损失函数对每个权重的偏导数（梯度），然后根据梯度下降公式更新权重。训练算法依然是反向传播算法。我们先回忆一下上一篇文章零基础入门深度学习(3) - 神经网络和反向传播算法介绍的反向传播算法，整个算法分为三个步骤：前向计算每个神经元的输出值aj（j表示网络的第j个神经元

2017-10-08 12:05:31 19590 4

原创卷积神经网络基础

往期回顾在前面的文章中，我们介绍了全连接神经网络，以及它的训练和使用。我们用它来识别了手写数字，然而，这种结构的网络对于图像识别任务来说并不是很合适。本文将要介绍一种更适合图像、语音识别任务的神经网络结构——卷积神经网络(Convolutional Neural Network, CNN)。说卷积神经网络是最重要的一种神经网络也不为过，它在最近几年大放异彩，几乎所有图像、语音识别领域的重要

2017-10-08 11:54:52 635

原创神经网络和反向传播算法

神经元神经元和感知器本质上是一样的，只不过我们说感知器的时候，它的激活函数是阶跃函数；而当我们说神经元时，激活函数往往选择为sigmoid函数或tanh函数。如下图所示：计算一个神经元的输出的方法和计算一个感知器的输出是一样的。假设神经元的输入是向量x⃗ ，权重向量是w⃗ (偏置项是w0)，激活函数是sigmoid函数，则其输出y：y=sigmoid

2017-10-08 11:42:51 8201 1

原创线性单元

线性单元是啥感知器有一个问题，当面对的数据集不是线性可分的时候，『感知器规则』可能无法收敛，这意味着我们永远也无法完成一个感知器的训练。为了解决这个问题，我们使用一个可导的线性函数来替代感知器的阶跃函数，这种感知器就叫做线性单元。线性单元在面对线性不可分的数据集时，会收敛到一个最佳的近似上。为了简单起见，我们可以设置线性单元的激活函数f为f(x)=x

2017-10-08 11:39:03 2610 1

原创感知器

深度学习是啥在人工智能领域，有一个方法叫机器学习。在机器学习这个方法里，有一类算法叫神经网络。神经网络如下图所示：上图中每个圆圈都是一个神经元，每条线表示神经元之间的连接。我们可以看到，上面的神经元被分成了多层，层与层之间的神经元有连接，而层内之间的神经元没有连接。最左边的层叫做输入层，这层负责接收输入数据；最右边的层叫输出层，我们可以从这层获取神经网络输出数据。输入层和输

2017-10-08 10:59:51 8496 3

原创集成学习之Bagging与Boosting

1. bagging的原理　　　　在集成学习原理小结中，我们给Bagging画了下面一张原理图。　　　　从上图可以看出，Bagging的弱学习器之间的确没有boosting那样的联系。它的特点在“随机采样”。那么什么是随机采样？　　　　随机采样(bootsrap)就是从我们的训练集里面采集固定个数的样本，但是每采集一个样本后，都将样本放回。也就是说，之前采集到的样

2017-10-07 15:07:01 478

原创 Adaboost算法

1、AdaBoost算法介绍AdaBoost是Boosting方法中最优代表性的提升算法。该方法通过在每轮降低分对样例的权重，增加分错样例的权重，使得分类器在迭代过程中逐步改进，最终将所有分类器线性组合得到最终分类器，Boost算法框架如下图所示：图1.1 Boost分类框架（来自PRML）2、AdaBoost算法过程：1）初始化每个训练样例的权值，共N个训练样例。2）...

2017-10-07 14:46:42 426

原创 SVM支持向量机

第一层、了解SVM 支持向量机，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。1.1、分类标准的起源：Logistic回归理解SVM，咱们必须先弄清楚一个概念：线性分类器。

2017-10-05 23:19:36 394

原创 Logistic回归

逻辑回归逻辑回归可以用来进行回归与分类，两者仅有略微不同，主体算法是一样的，本文以分类进行讲解。如下图二分类问题，我们希望找到一个直线（高维空间为超平面）来将数据划分开。这样的线性边界可以表示为：θ0x1+θ1x2+...+θmxm=θTx 上式右边x为向量。我们取预测函数为Sigmoid函数，Sigmoid函数有一个很棒的特点是它的导数f′(x)=f(x)(1−f(

2017-10-04 19:34:47 267

原创 L1以及L2正则化

正则化（Regularization）机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作ℓ1-norm和ℓ2-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2

2017-10-04 16:31:50 407

原创机器学习之正则化

1. The Problem of Overfitting1还是来看预测房价的这个例子，我们先对该数据做线性回归，也就是左边第一张图。如果这么做，我们可以获得拟合数据的这样一条直线，但是，实际上这并不是一个很好的模型。我们看看这些数据，很明显，随着房子面积增大，住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。我们把此类情况称为欠

2017-10-04 16:30:03 200

原创拉格朗日对偶问题

下面的最优化问题：目标函数是f(w)，下面是等式约束。通常解法是引入拉格朗日算子，这里使用来表示算子，得到拉格朗日公式为 L是等式约束的个数。然后分别对w和求偏导，使得偏导数等于0，然后解出w和。至于为什么引入拉格朗日算子可以求出极值，原因是f(w)的dw变化方向受其他不等式的约束，dw的变化方向与f(w

2017-10-04 14:47:37 692

原创特征值分解与奇异值分解

一、奇异值与特征值基础知识：特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系，我在接下来会谈到，特征值分解和奇异值分解的目的都是一样，就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧： 1）特征值：如果说一个向量v是方阵A的特征向量，将一定可以表示成下面的形式：这时候λ就被称为特征向量v对应的特征

2017-10-04 11:47:51 413

原创 LDA线性判别分析

1. 问题之前我们讨论的PCA、ICA也好，对样本数据来言，可以是没有类别标签y的。回想我们做回归时，如果特征太多，那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维，但PCA没有将类别标签考虑进去，属于无监督的。比如回到上次提出的文档中含有“learn”和“study”的问题，使用PCA后，也许可以将这两个特征合并为一个，降了维度。但假设我们的

2017-10-03 15:00:20 562

原创模型组合之梯度提升(Gradient Boosting)

Boosting方法：Boosting这其实思想相当的简单，大概是，对一份数据，建立M个模型（比如分类），一般这种模型比较简单，称为弱分类器(weak learner)每次分类都将上一次分错的数据权重提高一点再进行分类，这样最终得到的分类器在测试数据与训练数据上都可以得到比较好的成绩。上图就是一个Boosting的过程，绿色的线表示目前取得的模型，虚线表示当前这次模型。每次

2017-10-01 15:14:16 3264

原创参数估计

关于参数估计在很多的机器学习或数据挖掘的问题中，我们所面对的只有数据，但数据中潜在的概率密度函数是不知道的，其概率密度分布需要我们从数据中估计出来。想要确定数据对应的概率密度分布，就需要确定两个东西：概率密度函数的形式和概率密度函数的参数。有时可能知道的是概率密度函数的形式(高斯、瑞利等等)，但是不知道具体的参数，例如均值或者方差；还有的时候可能不知道概率密度的类型，但是知道一

2017-10-01 10:30:32 2427

空空如也

空空如也