模式识别
文章平均质量分 80
ycheng_sjtu
上海交通大学自动化系,关注模式识别,机器学习,算法研究,人工智能, 移动互联网等学科和产业,希望结识更多同道中人。
展开
-
贝叶斯决策理论(一)
\[P\left( {{\omega _i}\left| X \right.} \right)\]原创 2014-04-16 22:34:43 · 3163 阅读 · 0 评论 -
Neural Networks for Machine Learning by Geoffrey Hinton (1~2)
机器学习能良好解决的问题识别模式识别异常预测大脑工作模式人类有个神经元,每个包含个权重,带宽要远好于工作站。神经元的不同类型Linear (线性)神经元 Binary threshold (二值)神经元 ReLu(Rectified Linear Units) 神经元原创 2015-08-17 15:27:18 · 6734 阅读 · 0 评论 -
Neural Networks for Machine Learning by Geoffrey Hinton (3)
Neural Networks for Machine Learning by Geoffrey Hinton训练感知机的方法并不能用以训练隐含层训练感知机的方式是每次直接修正权重,最终得到满足所有凸锥里的权重。可行解的平均一定还是可行解。对多层神经网络而言,2个可行解的平均并不一定是可行解。 They should never have been called mul原创 2015-08-19 13:37:40 · 5951 阅读 · 0 评论 -
Alex / OverFeat / VGG 中的卷积参数
研究需要,统计了一些经典CNN结构的卷积层参数。 Alexnet Layer Input Kernel Output Stride Pad 1 256 * 3 * 227 * 227 48 * 3 * 11 * 11 256 * 48 * 55 * 55 4 0 2 256 * 48 * 27 * 27 128 * 48 *原创 2015-08-20 19:00:06 · 10928 阅读 · 0 评论 -
Neural Networks for Machine Learning by Geoffrey Hinton (7)序列建模与RNN
序列建模用机器学习对序列建模的意义将输入序列变化到另一个域上的输出序列,例如: 将声压信号转化成单词序列。若没有目标序列,可以通过预测输入序列中的下一段来作为学习信号。 这种方法介于监督学习与无监督学习之间,它使用了监督学习的训练方法,但并不需要一个单独的学习信号。序列的无记忆模型自回归模型(Autoregressive models)通过使用固定数量的历史序列项,来预测未来序列项。即所原创 2015-09-08 00:07:54 · 7405 阅读 · 0 评论 -
理解LSTM网络
理解LSTM网络周期神经网络(Recurrent Neural Networks)。人类并非每一秒都在从头开始思考问题。当你阅读这篇文章时,你是基于之前的单词来理解每个单词。你并不会把所有内容都抛弃掉,然后从头开始理解。你的思考具有持久性。传统的神经网络并不能做到这一点,这似乎是其一个主要的缺点。例如,想象你要把一部电影里面每个时间点所正在发生的事情进行分类。翻译 2015-09-28 23:16:30 · 26980 阅读 · 10 评论 -
深度学习(Deep Learning),自然语言处理(NLP)及其表达(Representation)
深度学习(Deep Learning),自然语言处理(NLP)及其表达(Representation)简介过去几年中,深度神经网络在模式识别领域占据着统治地位。他们在诸多计算机视觉任务领域,将之前的最好算法彻底击败。语言识别也正朝着这个方向发展。 They blew the previous state of the art out of the water for many computer翻译 2015-09-17 12:33:39 · 25631 阅读 · 0 评论 -
『RNN 监督序列标注』笔记-第一/二章 监督序列标注
『RNN 监督序列标注』笔记-第一/二章 监督序列标注 监督序列标注(Supervised Sequence Labeling)与传统的监督模式分类(supervised pattern classification)的不同之处在与样本点不能被当作是独立的。序列标注的特点输入和标签都具有强相关性。 输入与标签的对应关系是未知的。RNNs的优点与缺陷优点上下文信息非常灵活(因为它们能够学原创 2015-11-11 23:58:43 · 9579 阅读 · 0 评论 -
谈谈深度学习中的 Batch_Size
谈谈深度学习中的 Batch_SizeBatch_Size(批尺寸)是机器学习中一个重要参数,涉及诸多矛盾,下面逐一展开。首先,为什么需要有 Batch_Size 这个参数?Batch 的选择,首先决定的是下降的方向。如果数据集比较小,完全可以采用全数据集 ( Full Batch Learning )的形式,这样做至少有 2 个好处:其一,由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝原创 2015-11-12 19:59:38 · 140463 阅读 · 18 评论 -
『RNN 监督序列标注』笔记-第三章 神经网络
『RNN 监督序列标注』笔记-第三章 神经网络多层感知机(Multilayer Perceptrons)多层感知机的输出仅仅取决于当前的输入,因此 MLPs 更适用于模式分类而非序列标注任务。仅仅具有单隐含层的 MLPs 就具有了以任意精度逼近任意连续函数的能力,因此也被成为通用函数拟合器(universal function approximators)。前向过程前向过程可以描述为 ah=∑i=原创 2015-11-16 00:38:27 · 8322 阅读 · 1 评论 -
Neural Networks for Machine Learning by Geoffrey Hinton (6)
Overview of mini-batch gradient descent错误面Full Batch Learning 的收敛性问题学习率问题随机梯度下降法2类学习算法基本批梯度下降法各种批梯度下降法中的小技巧权重值初始化中心化输入Shifting the inputs均一化输入Scaling the inputs更彻底的方法去除相关性多层神经网络中容易出现的问题4种加原创 2015-08-26 14:22:20 · 9157 阅读 · 0 评论 -
Neural Networks for Machine Learning by Geoffrey Hinton (5)
Neural Networks for Machine Learning by Geoffrey Hinton (5)为什么物体识别很困难? 图像分割(Segmentation):实际场景中总是掺杂着其他物体。物体光照(Lighting):像素的值被物体光照所显著影响。图像变形(Deformation):物体有时会变形成非仿射(non-affine)的形式。情景支持(Affordances)原创 2015-08-25 12:15:45 · 7324 阅读 · 0 评论 -
贝叶斯决策理论(二)
基于最小风险的贝叶斯决策原创 2014-04-25 23:20:50 · 2691 阅读 · 0 评论 -
贝叶斯决策理论(三)
本节结合上2节内容介绍正态分布的贝叶斯分类器。首先介绍多元正态分布的数学基础。密度函数原创 2014-04-26 17:18:32 · 3160 阅读 · 0 评论 -
句法模式识别(二)-正规文法、上下文无关文法
正规文法的特性1.所有长度有限的语言都是正规的。2.用正规文法当然能产生无限长串,其中周期重复部分的长度不大于非终止符的长度。举个例子在此规则之下,能生成句子其中周期重复部分为ab,这个例子的非终止符的元素个数为2,故满足2不大于2. 自嵌入特性我们把上下文无关文法中的正规文法去掉,剩下的那部分我们叫做真正的上下文无关文法。自嵌入特性是区分真正的上下文无原创 2014-05-17 23:52:35 · 10016 阅读 · 1 评论 -
特征选择(三)-K-L变换
上一讲说到,各个特征(各个分量)对分类来说,其重要性当然是不同的。舍去不重要的分量,这就是降维。 聚类变换认为:重要的分量就是能让变换后类内距离小的分量。类内距离小,意味着抱团抱得紧。 但是,抱团抱得紧,真的就一定容易分类么?如图1所示,根据聚类变换的原则,我们要留下方差小的分量,把方差大(波动大)的分量丢掉,所以两个椭圆都要向y轴投影,这样悲剧了,两个重叠在一起,根本原创 2014-05-11 07:37:00 · 17472 阅读 · 3 评论 -
特征选择(二)-聚类变换
上一讲已经给出了类内距离的概念。针对这个概念,有人从完全不同的两个角度给出了方法。这就是聚类变换与K-L变换。本章介绍聚类变换。 降维到底是在干什么?各个特征(各个分量)对分类来说,其重要性当然是不同的。舍去不重要的分量,这就是降维。 关键问题是,什么叫不重要?这就是为什么会有两种不同的变换了。 聚类变换认为:重要的分量就是能让变换后类内距离小的分量。原创 2014-05-10 22:06:19 · 5113 阅读 · 0 评论 -
特征选择(一)-维数问题与类内距离
什么是特征选择?简单说,特征选择就是降维。 特征选择的任务就是要从n维向量中选取m个特征,把原向量降维成为一个m维向量。但是降维必须保证类别的可分离性或者说分类器的性能下降不多。 注意降维具有片面性,算法并不普适。常常会有失效发生。 降维这件小事在图像处理中叫做图像压缩、特征提取。重在最优区分(可分离性)。在模式识别中叫做特征选择。重在最优描述(保真性)。原创 2014-05-08 23:26:45 · 15995 阅读 · 3 评论 -
特征选择(四)-分散度
度量类别可分离性的量主要有:欧氏距离(正态分布,协方差相等,且为单位阵)是最简单的一种描述方法。它把两个类别中心之间的欧式距离作为两个不同类别间不相似性的度量。马氏(Mahalanobis)距离(正态分布,协方差相等)它用来描述两个具有相同的协方差矩阵C,不同的期望值和的类别之间的不相似性,具体表达式是:Mahalanobis距离原创 2014-05-11 23:59:06 · 8372 阅读 · 0 评论 -
句法模式识别(一)-串文法
前面介绍的所有思想都属于统计模式识别,然而统计模式识别存在2个问题:1.有的模式结构很复杂,不能用一个矢量来表示。2.有的模式识别任务中,我们更关心如何描述它的结构特征。 因此需要另外一种模式识别:结构模式识别。这其中,句法模式识别主要使用形式语言来描述模式结构,在理论上完备,表1是句法模式识别与统计模式识别的对应关系,下面做介绍。 表1串文法就是一种机器能原创 2014-05-16 10:53:09 · 5321 阅读 · 1 评论 -
隐马尔科夫模型(HMM)及其实现
马尔科夫模型马尔科夫模型是单重随机过程,是一个2元组:(S,A)。其中S是状态集合,A是状态转移矩阵。只用状态转移来描述随机过程。 马尔科夫模型的2个假设有限历史性假设:t+l时刻系统状态的概率分布只与t时刻的状态有关,与t时刻以前的状态无关;齐次性假设:从t时刻到t+l时刻的状态转移与t的值无关。 以天气模型为例天气变化有3中状态S:{1(阴),2(云),原创 2014-08-27 10:01:16 · 6941 阅读 · 6 评论 -
Neural Networks for Machine Learning by Geoffrey Hinton (4)
一种可以学习家谱关系的简单神经网络血缘一共有12种关系: son, daughter, nephew, niece, father, mother, uncle, aunt, brother, sister, husband, wife有1个英国家庭以及1个意大利家庭,每个家庭有12个人。各种家庭关系都是可用三元数组表示,即( Agent / Relation / Patient ) 结构:原创 2015-08-24 14:43:08 · 6116 阅读 · 0 评论 -
『RNN 监督序列标注』笔记-第四章 LSTM(Long Short-Term Memory)
『RNN 监督序列标注』笔记-第四章 LSTM(Long Short-Term Memory)标准 RNN 在实际使用中能够有效利用的上下文范围很有限,这是由于经过若干次迭代,隐含层权重值要么消失要么爆炸。Long Short-Term Memory (LSTM)结构解决了这一问题。网络结构LSTM 具有记忆单元,每个单元含有记忆细胞和3个倍增单元(输入、输出以及遗忘门)。如图所示: 展示原创 2015-11-17 09:57:05 · 10137 阅读 · 1 评论