机器学习 Machine Learning
文章平均质量分 90
大饼博士X
关注机器学习/深度学习算法与硬件加速
展开
-
入门神经网络优化算法(一):Gradient Descent,Momentum,Nesterov accelerated gradient
梯度下降基于梯度的优化算法,Gradient based optimization,也往往被称为一阶优化算法。所以很容易猜到,还有二阶优化算法等的高阶优化算法,但是在实际应用中,基于梯度的一阶优化算法是目前的绝对主流方法,本文就重点罗列一下基于梯度的优化算法。最典型以及简单的是:梯度下降算法。梯度下降法是神经网络求解优化中最常用的一类算法(实际上是在数值优化方法里的一种常用方法,常常用以求解连...原创 2019-12-19 20:49:05 · 5452 阅读 · 1 评论 -
机器学习方法(八):随机采样方法整理(MCMC、Gibbs Sampling等)
转载请注明出处:Bin的专栏,http://blog.csdn.net/xbinworld本文是对参考资料中多篇关于sampling的内容进行总结+搬运,方便以后自己翻阅。其实参考资料中的资料写的比我好,大家可以看一下!好东西多分享!PRML的第11章也是sampling,有时间后面写到PRML的笔记中去:)背景随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Sim原创 2015-02-07 22:20:29 · 29421 阅读 · 7 评论 -
深度学习方法(十三):卷积神经网络结构变化——可变形卷积网络deformable convolutional networks
上一篇我们介绍了:深度学习方法(十二):卷积神经网络结构变化——Spatial Transformer Networks,STN创造性地在CNN结构中装入了一个可学习的仿射变换,目的是增加CNN的旋转、平移、缩放、剪裁性。为什么要做这个很奇怪的结构呢?原因还是因为CNN不够鲁棒,比如把一张图片颠倒一下,可能就不认识了(这里mark一下,提高CNN的泛化能力,值得继续花很大力气,STN是一个思路,读者原创 2017-04-19 22:44:10 · 19575 阅读 · 1 评论 -
深度学习方法(十二):卷积神经网络结构变化——Spatial Transformer Networks
今天具体介绍一个Google DeepMind在15年提出的Spatial Transformer Networks,相当于在传统的一层Convolution中间,装了一个“插件”,可以使得传统的卷积带有了[裁剪]、[平移]、[缩放]、[旋转]等特性;理论上,作者希望可以减少CNN的训练数据量,以及减少做data argument,让CNN自己学会数据的形状变换。这篇论文我相信会启发很多新的改进,也就是对卷积结构作出原创 2017-04-03 23:45:44 · 24277 阅读 · 15 评论 -
深度学习方法(十一):卷积神经网络结构变化——Google Inception V1-V4,Xception(depthwise convolution)
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、机器学习技术感兴趣的同学加入。上一篇讲了深度学习方法(十):卷积神经网络结构变化——Maxout Networks,Network In Network,Global Average Pooling,本篇讲一讲Google的Inception系列net,以及原创 2017-03-15 23:30:28 · 25167 阅读 · 1 评论 -
深度学习方法(十):卷积神经网络结构变化——Maxout Networks,Network In Network,Global Average Pooling
本文先介绍两个13,14年的工作:Maxout Networks,Network In Network。网上有不少资料,但是很多作者我相信自己都没有完全理解,在本文中我会尽可能描述清楚。本文重点在于Network In Network。本文针对论文和网络资料的整理,自己重新撰写,保证每一个初学者都可以看懂。原创 2017-03-11 16:52:54 · 19384 阅读 · 13 评论 -
[重磅]Deep Forest,非神经网络的深度模型,周志华老师最新之作,三十分钟理解!
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术感兴趣的同学加入。深度学习最大的贡献,个人认为就是表征学习(representation learning),通过端到端的训练,发现更好的features,而后面用于分类(或其他任务)的输出function,往往也只是普通的softmax(或者其他一些经原创 2017-03-06 00:03:08 · 25073 阅读 · 5 评论 -
三十分钟理解计算图上的微积分:Backpropagation,反向微分
神经网络的训练算法,目前基本上是以Backpropagation (BP) 反向传播为主(加上一些变化),NN的训练是在1986年被提出,但实际上,BP 已经在不同领域中被重复发明了数十次了(参见 Griewank (2010)[1])。更加一般性且与应用场景独立的名称叫做:反向微分 (reverse-mode differentiation)。本文是看了资料[2]中的介绍,写的蛮好,自己记录一下,原创 2017-03-04 22:33:04 · 9948 阅读 · 4 评论 -
自组织神经网络介绍:自组织特征映射SOM(Self-organizing feature Map),第三部分
前面介绍了SOM的基本概念和算法,第一部分,第二部分,本篇具体展开一下应用中的一些trick设定。SOM设计细节输出层设计 输出层神经元数量设定和训练集样本的类别数相关,但是实际中我们往往不能清除地知道有多少类。如果神经元节点数少于类别数,则不足以区分全部模式,训练的结果势必将相近的模式类合并为一类;相反,如果神经元节点数多于类别数,则有可能分的过细,或者是出现“死节点”,即在训练过程中,某个节点原创 2016-03-15 00:21:08 · 21106 阅读 · 3 评论 -
自组织神经网络介绍:自组织特征映射SOM(Self-organizing feature Map),第二部分
上一篇介绍了一些自组织神经网络的基本概念,第一部分,这一篇讲下SOM的概念和原理,是本文的第二部分。1、SOM背景1981年芬兰Helsink大学的T.Kohonen教授提出一种自组织特征映射网,简称SOM网,又称Kohonen网。Kohonen认为:一个神经网络接受外界输入模式时,将会分为不同的对应区域,各区域对输入模式具有不同的响应特征,而且这个过程是自动完成的。自组织特征映射正是根据这一看法提原创 2016-03-08 22:50:56 · 29246 阅读 · 2 评论 -
自组织神经网络介绍:自组织特征映射SOM(Self-organizing feature Map),第一部分
自组织神经网络介绍:自组织特征映射SOM(Self-organizing feature Map),第一部分 自组织神经网络介绍:自组织特征映射SOM(Self-organizing feature Map),第二部分 自组织神经网络介绍:自组织特征映射SOM(Self-organizing feature Map),第三部分本文详细介绍一下自组织神经网络概念和原理,并重点介绍一下自组织特征映射原创 2016-03-07 23:21:05 · 57564 阅读 · 8 评论 -
机器学习方法(七):Kmeans聚类K值如何选,以及数据重抽样方法Bootstrapping
本篇介绍了聚类如何选择K的一种方法(实际上,除了kmeans以外,还可以用于很多其他的聚类方法,如果他们也要确定k。)。该方法使用的Parametric bootstrap来抽样,是统计中bootstrap方法的一种类型。我们还介绍了基本的bootstrap方法,有放回的抽取,以及更平滑的smooth bootstrap方法,这些算法都是简单而有道理原创 2016-02-15 22:42:30 · 27330 阅读 · 4 评论 -
分布式机器学习系统笔记(一)——模型并行,数据并行,参数平均,ASGD
模型并行( **model parallelism** ):分布式系统中的不同机器(GPU/CPU等)负责网络模型的不同部分 —— 例如,神经网络模型的不同网络层被分配到不同的机器,或者同一层内部的不同参数被分配到不同机器;[14] - 数据并行( **data parallelism** ):不同的机器有同一个模型的多个副本,每个机器分配到不同的数据,然后将所有机器的计算结果按照某种方式合并。原创 2017-07-29 21:45:48 · 39711 阅读 · 12 评论 -
深度学习方法(十四):轻量级CNN网络设计——MobileNet,ShuffleNet,文末有思考
本系列前面介绍了非常多卷积网络结构设计,事实上,在inception和resnet网络提出并相对完善以后,网络结构的设计就不再爆发式出现了,这两大类网路涵盖了大部分应用的卷积网络结构。在本文中,我们来一起看一些最近一年研究较多的轻量级卷积网络结构,这些网络主要的设计目标是——在保证一定的识别精度情况下,尽可能减少网络规模(参数量、计算量)。最直接的设计目标就是用于手机等移动终端中(CPU),让原创 2017-08-25 22:16:54 · 25014 阅读 · 1 评论 -
深度学习方法(十七):word2vec算法原理(1):跳字模型(skip-gram) 和连续词袋模型(CBOW)
word embedding算法中最为经典的算法就是今天要介绍的word2vec,最早来源于Google的Mikolov的:1、Distributed Representations of Sentences and Documents2、Efficient estimation of word representations in vector space也是开创了无监督词嵌入的新局面,让...原创 2019-05-26 20:37:55 · 18733 阅读 · 1 评论 -
深度学习方法(十六):Batch Normalization及其变种——Layer Norm, Group Norm,Weight Norm等
很久没写博文了,这几天是元旦假期,抽一点时间写一些简单的内容,大家2018年一起加油,天天向上哈!本文的内容包括:Batch NormalizationWeight NormalizationLayer NormalizationBatch RenormalizationBatch Normalization加粗 Ctrl + B 列表内容斜体原创 2019-03-29 22:03:21 · 6530 阅读 · 1 评论 -
我的Blog文章索引::机器学习方法系列,深度学习方法系列,三十分钟理解系列等
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、机器学习技术感兴趣的同学加入。以下是我利用业余时间在自己博客中写的文章,主要是一些基础、经典算法的整理,目的一方面是为了科普机器学习技术,让更多同学可以知道什么是机器学习;另外一方面也是督促自己在工作之余还可以抽时间学习知识,温故知新,以备查用。本文会原创 2018-01-21 21:59:38 · 7440 阅读 · 3 评论 -
深度学习/机器学习入门基础数学知识整理(六):Hoeffding不等式,
开写之前先推荐一个林轩田先生的书,《Learning From Data》,我从网上得到电子版资源放在这里获取,仅用于学习交流之用,不可用与商用,谢谢。网上还有配套的Slides,我虽然还未看过这本书,但是浏览了一下非常不错,mark一下,希望后面有时间可以静下心来学习一下。直观理解本章记录一下霍夫丁不等式 Hoeffding Inequality,以及占个位,以后其他类似的不等式...原创 2018-08-26 22:36:02 · 5364 阅读 · 0 评论 -
深度学习/机器学习入门基础数学知识整理(五):Jensen不等式简单理解,共轭函数
Jensen不等式及其延伸 [1]凸函数最基本的不等式性质,又称Jensen不等式 f(θx+(1−θ)y)≤θ f(x)+(1−θ) f(y)f(θx+(1−θ)y)≤θ f(x)+(1−θ) f(y)f(\theta x+(1-\theta)y)\leq \theta\ f(x)+ (1-\theta)\ f(y) 许多著名的不等式都是由Je...原创 2018-07-30 00:33:41 · 3648 阅读 · 0 评论 -
深度学习/机器学习入门基础数学知识整理(四):拟牛顿法、BFGS、L-BFGS、DFP、共轭梯度法
参考资料https://blog.csdn.net/batuwuhanpei/article/details/51979831 https://blog.csdn.net/u011722133/article/details/53518134 无约束优化方法(梯度法-牛顿法-BFGS- L-BFGS) 优化算法——拟牛顿法之DFP算法 牛顿法与拟牛顿法 牛顿法,拟牛顿法, 共轭梯度法...原创 2018-07-15 01:39:23 · 4439 阅读 · 0 评论 -
深度学习/机器学习入门基础数学知识整理(三):凸优化,Hessian,牛顿法
凸优化理论本身非常博大,事实上我也只是了解了一个皮毛中的皮毛,但是对于广大仅仅想要了解一下机器学习或者深度学习的同学来说,稍微了解一点凸优化也就够了。在实际工程问题中,比如现在我们用的最多的深度神经网络的求解优化问题,都是非凸的,因此很多凸优化理论中非常有价值的定理和方法,在非凸优化问题中不适用,或者说并没有收敛保证等。但是,作为知识的基础,依然有必要来理解和学习一下凸优化,本篇整理了非常基础的一...原创 2018-01-20 21:05:27 · 19159 阅读 · 3 评论 -
深度学习/机器学习入门基础数学知识整理(二):梯度与导数,矩阵求导,泰勒展开等
导数与梯度导数:一个一元函数函数在某一点的导数描述了这个函数在这一点附近的变化率。 f′(a)=limh→0f(a+h)−f(a)hf'(a) = \lim_{h \rightarrow 0} \frac{f(a+h)-f(a)}{h}梯度:多元函数的导数就是梯度。一阶导数,即梯度(gradient):∇f(X)=∂f(X)∂X=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢∂f(X)∂原创 2018-01-19 23:17:48 · 7945 阅读 · 2 评论 -
深度学习/机器学习入门基础数学知识整理(一):线性代数基础,矩阵,范数等
前面大概有2年时间,利用业余时间断断续续写了一个机器学习方法系列,和深度学习方法系列,还有一个三十分钟理解系列(一些趣味知识);新的一年开始了,今年给自己定的学习目标——以补齐基础理论为重点,研究一些基础课题;同时逐步继续写上述三个系列的文章。最近越来越多的研究工作聚焦研究多层神经网络的原理,本质,我相信深度学习并不是无法掌控的“炼金术”,而是真真实实有理论保证的理论体系;本篇打算摘录整理原创 2018-01-14 14:08:39 · 27772 阅读 · 17 评论 -
距离计算方法总结
在做很多研究问题时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余转载 2013-04-26 18:40:55 · 10662 阅读 · 0 评论 -
深度学习方法:受限玻尔兹曼机RBM(三)模型求解,Gibbs sampling
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术、应用感兴趣的同学加入。本篇重点讲一下RBM模型求解方法,其实用的依然是梯度上升方法,但是求解的方法需要用到随机采样的方法,常见的有:Gibbs Sampling和对比散度(contrastive divergence, CD)算法。RBM原创 2015-12-19 08:56:56 · 16514 阅读 · 2 评论 -
机器学习方法(六):随机森林Random Forest,bagging
前面[机器学习方法(四)决策树](http://blog.csdn.net/xbinworld/article/details/44660339)讲了经典的决策树算法,我们讲到决策树算法很容易过拟合,因为它是通过最佳策略来进行属性分裂的,这样往往容易在train data上效果好,但是在test data上效果不好。随机森林random forest算法,本质上是一种ensemble的方法,可以有效的降低过拟合,本文原创 2016-01-03 21:47:11 · 32831 阅读 · 0 评论 -
机器学习距离公式总结
作者:daniel-D 出处:http://www.cnblogs.com/daniel-D/在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足转载 2015-02-07 22:18:29 · 9157 阅读 · 0 评论 -
梯度下降取负梯度的简单证明,挺有意思的mark一下
本文转载自:http://blog.csdn.net/itplus/article/details/9337515转载 2015-01-19 22:28:38 · 3764 阅读 · 0 评论 -
今天开始学模式识别与机器学习(PRML),章节5.1,Neural Networks神经网络-前向网络。
《模式识别与机器学习》PRML第5章介绍了神经网络neural network,是最近非常火的deep learning的基础之一。原创 2015-01-27 23:13:08 · 3283 阅读 · 0 评论 -
今天开始学Pattern Recognition and Machine Learning (PRML),章节1.6,Information Theory信息论简介
原创书写,转载请注明此文出自:http://blog.csdn.net/xbinworld,Bin的专栏今天开始学Pattern Recognition and Machine Learning (PRML),章节1.6,Information Theory信息论简介前面有朋友说写的东西太理论了,我想说我并不是在和很多其他博客一样做topic的入门介绍,配合很多示意图之原创 2013-05-24 12:27:29 · 5378 阅读 · 0 评论 -
今天开始学模式识别与机器学习Pattern Recognition and Machine Learning (PRML),章节1.2,Probability Theory (下)
原创书写,转载请注明此文出自:http://blog.csdn.net/xbinworld,Bin的专栏今天开始学Pattern Recognition and Machine Learning (PRML),章节1.2,Probability Theory (下)今天把1.2写完,这一节讲了很多重要的基础内容。1.2.3 贝叶斯概率这一节的上半原创 2013-05-09 20:37:09 · 4465 阅读 · 1 评论 -
今天开始学模式识别与机器学习Pattern Recognition and Machine Learning 书,章节1.1,多项式曲线拟合(Polynomial Curve Fitting)
原创书写,转载请注明此文出自:http://blog.csdn.net/xbinworld,Bin的专栏 Pattern Recognition and Machine Learning (PRML)书学习,章节1.1,介绍与多项式曲线拟合(Polynomial Curve Fitting)博士也快念完了,明年毕业,今年开始准备毕业相关的东西,感觉自己做machine lear原创 2013-04-26 18:32:51 · 4141 阅读 · 1 评论 -
论文阅读笔记之ICML2012::The Landmark Selection Method for Multiple Output Prediction 基于代表性特征选取的多维度回归方法
论文目标:做high dimensional regression的问题,即 一般做回归的时候y的维度会比x低,甚至是一维的,比如一般用回归来做分类、预测。但是y的维度如果比较高,而x可以是高维也可以是低维,回归问题可能需要有不一样的角度去思考。主要idea:假设y中的feature是有冗余的,可以用一部分feature来拟合出整个y,我们需要找到那一些“好原创 2013-04-26 18:46:07 · 1833 阅读 · 0 评论 -
机器学习降维算法一:PCA(主成分分析算法)
引言:机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据,也有一些降维算法处理高阶张量原创 2011-09-22 10:37:38 · 10502 阅读 · 1 评论 -
机器学习降维算法三:LLE (Locally Linear Embedding) 局部线性嵌入
如引用请务必注明此文出自:http://blog.csdn.net/xbinworldLLE Locally linear embedding(LLE)[1] 是一种非线性降维算法,它能够使降维后的数据较好地保持原有流形结构。LLE可以说是流形学习方法最经典的工作之一。很多后续的流形学习、降维方法都与LLE有密切联系。见图1,使用LLE将三维数据(b)映射到二维(c)原创 2013-04-26 18:02:54 · 16388 阅读 · 3 评论 -
今天开始学模式识别与机器学习Pattern Recognition and Machine Learning (PRML)书,章节1.2,Probability Theory (上)
原创书写,转载请注明此文出自:http://blog.csdn.net/xbinworld,Bin的专栏 Pattern Recognition and Machine Learning (PRML)书,章节1.2,Probability Theory (上)这一节是浓缩了整本书关于概率论的精华,突出一个不确定性(uncertainty)的理解。我看的比较慢,是想要细扣一下,而原创 2013-04-26 18:34:32 · 2638 阅读 · 1 评论 -
机器学习降维算法四:Laplacian Eigenmaps 拉普拉斯特征映射
原创书写,转载请注明此文出自:http://www.cnblogs.com/xbinworld,http://blog.csdn.net/xbinworld Laplacian Eigenmaps 继续写一点经典的降维算法,前面介绍了PCA,LDA,LLE,这里讲一讲Laplacian Eigenmaps。其实不是说每一个算法都比前面的好,而是每一个算法都是从不同角度去看问题,原创 2013-04-26 18:15:22 · 23491 阅读 · 4 评论 -
今天开始学Pattern Recognition and Machine Learning (PRML),章节5.2-5.3,Neural Networks神经网络训练(BP算法)
这一篇是整个第五章的精华了,会重点介绍一下Neural Networks的训练方法——反向传播算法(backpropagation,BP),这个算法提出到现在近30年时间都没什么变化,可谓极其经典。也是deep learning的基石之一。还是老样子,下文基本是阅读笔记(句子翻译+自己理解),把书里的内容梳理一遍,也不为什么目的,记下来以后自己可以翻阅用。原创 2015-02-07 22:04:51 · 4527 阅读 · 0 评论 -
深度学习方法:受限玻尔兹曼机RBM(四)对比散度contrastive divergence,CD
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术、应用感兴趣的同学加入。上篇讲到,如果用Gibbs Sampling方法来训练rbm会非常慢,本篇中介绍一下对比散度contrastive divergence, CD算法。我们希望得到P(v)P(\textbf{v})分布下的样本,而我们有训原创 2015-12-31 22:29:08 · 16077 阅读 · 5 评论 -
机器学习方法(五):逻辑回归Logistic Regression,Softmax Regression
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术、应用感兴趣的同学加入。逻辑回归可以说是最为常用的机器学习算法之一,最经典的场景就是计算广告中用于CTR预估,是很多广告系统的核心算法。原创 2015-05-12 22:56:53 · 13562 阅读 · 2 评论