深度学习 Deep Learning
文章平均质量分 90
大饼博士X
关注机器学习/深度学习算法与硬件加速
展开
-
深度学习方法(二十一):常用权重初始化方法Xavier,He initialization的推导
文章目录交叉熵目标函数更陡峭Xavier initialization [1][4]He initialization [2][3]He init 考虑ReLU函数He init 考虑Leaky ReLU函数结束语参考资料交叉熵目标函数更陡峭在论文[1]中给了一个图示,一定程度上说明了为什么Cross Entropy用的很多,效果很好。图中上面的曲面表示的是交叉熵代价函数,下面的曲面表示的是二次代价函数,W1和W2分别表示层与层之间的连接权值。)在1986年 Rumelhart 已经发现:logi原创 2020-08-09 18:01:02 · 5040 阅读 · 2 评论 -
深度学习方法(二十):Hinton组最新无监督学习方法SimCLR介绍,以及Momentum Contrastive(MoCo)
本篇文章记录一下最近发表的两个比较类似的无监督representation learning工作: - SimCLR——Hinton组的工作,第一作者Ting Chen - MoCo v2——He Kaiming组的工作,第一作者Xinlei Chen原创 2020-03-21 21:13:41 · 11887 阅读 · 0 评论 -
深度学习方法(十九):一文理解Contrastive Loss,Triplet Loss,Focal Loss
我们平时ML任务的时候,用的最多的是cross entropy loss或者MSE loss。需要有一个明确的目标,比如一个具体的数值或者是一个具体的分类类别。但是ranking loss实际上是一种metric learning,他们学习的相对距离,相关关系,而对具体数值不是很关心。ranking loss 有非常多的叫法,但是他们的公式实际上非常一致的。大概有两类,一类是输入pair 对,另外一种是输入三元组结构。原创 2020-03-08 21:21:53 · 27364 阅读 · 4 评论 -
入门神经网络优化算法(五):一文看懂二阶优化算法Natural Gradient Descent(Fisher Information)
二阶优化算法Natural Gradient Descent,是从分布空间推导最速梯度下降方向的方法,和牛顿方法有非常紧密的联系。Fisher Information Matrix往往可以用来代替牛顿法的Hessian矩阵计算。下面详细道来。原创 2020-03-03 00:51:11 · 6913 阅读 · 2 评论 -
入门神经网络优化算法(一):Gradient Descent,Momentum,Nesterov accelerated gradient
梯度下降基于梯度的优化算法,Gradient based optimization,也往往被称为一阶优化算法。所以很容易猜到,还有二阶优化算法等的高阶优化算法,但是在实际应用中,基于梯度的一阶优化算法是目前的绝对主流方法,本文就重点罗列一下基于梯度的优化算法。最典型以及简单的是:梯度下降算法。梯度下降法是神经网络求解优化中最常用的一类算法(实际上是在数值优化方法里的一种常用方法,常常用以求解连...原创 2019-12-19 20:49:05 · 5469 阅读 · 1 评论 -
计算机视觉算法整理(一):Faster RCNN,bounding box regression,IOU,GIOU
专门收录一下一些有趣的,计算机视觉中我想记录一下的算法,重点关注的是loss function,顺便说下相关算法。因为是收录,只为日后查看之需,有一些会借用一些资料,我会给出引用。1、Faster RCNN两阶段目标检测的代表作,可以说是开创了目标检测的一番局面。现在很多公司实际在商用的目标检测算法,依然很多是基于Faster RCNN的。虽然后来各种论文都号称吊打Faster RCNN,但是...原创 2019-12-07 00:09:30 · 5088 阅读 · 0 评论 -
深度学习方法(十):卷积神经网络结构变化——Maxout Networks,Network In Network,Global Average Pooling
本文先介绍两个13,14年的工作:Maxout Networks,Network In Network。网上有不少资料,但是很多作者我相信自己都没有完全理解,在本文中我会尽可能描述清楚。本文重点在于Network In Network。本文针对论文和网络资料的整理,自己重新撰写,保证每一个初学者都可以看懂。原创 2017-03-11 16:52:54 · 19394 阅读 · 13 评论 -
深度学习方法(十一):卷积神经网络结构变化——Google Inception V1-V4,Xception(depthwise convolution)
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、机器学习技术感兴趣的同学加入。上一篇讲了深度学习方法(十):卷积神经网络结构变化——Maxout Networks,Network In Network,Global Average Pooling,本篇讲一讲Google的Inception系列net,以及原创 2017-03-15 23:30:28 · 25169 阅读 · 1 评论 -
深度学习方法(十二):卷积神经网络结构变化——Spatial Transformer Networks
今天具体介绍一个Google DeepMind在15年提出的Spatial Transformer Networks,相当于在传统的一层Convolution中间,装了一个“插件”,可以使得传统的卷积带有了[裁剪]、[平移]、[缩放]、[旋转]等特性;理论上,作者希望可以减少CNN的训练数据量,以及减少做data argument,让CNN自己学会数据的形状变换。这篇论文我相信会启发很多新的改进,也就是对卷积结构作出原创 2017-04-03 23:45:44 · 24301 阅读 · 15 评论 -
深度学习方法(十三):卷积神经网络结构变化——可变形卷积网络deformable convolutional networks
上一篇我们介绍了:深度学习方法(十二):卷积神经网络结构变化——Spatial Transformer Networks,STN创造性地在CNN结构中装入了一个可学习的仿射变换,目的是增加CNN的旋转、平移、缩放、剪裁性。为什么要做这个很奇怪的结构呢?原因还是因为CNN不够鲁棒,比如把一张图片颠倒一下,可能就不认识了(这里mark一下,提高CNN的泛化能力,值得继续花很大力气,STN是一个思路,读者原创 2017-04-19 22:44:10 · 19585 阅读 · 1 评论 -
深度学习方法(七):最新SqueezeNet 模型详解,CNN模型参数降低50倍,压缩461倍!
继续前面关于深度学习CNN经典模型的整理,之前介绍了CNN网络Lenet,Alexnet,Googlenet,VGG,Deep Residual Learning(点击查看)的网络结构。本文讲一下最新由UC Berkeley和Stanford研究人员一起完成的SqueezeNet[1]网络结构和设计思想。SqueezeNet设计目标不是为了得到最佳的CNN识别精度,而是希望简化网络复杂度,同时达到p原创 2016-03-16 00:39:13 · 56584 阅读 · 12 评论 -
深度学习方法(十四):轻量级CNN网络设计——MobileNet,ShuffleNet,文末有思考
本系列前面介绍了非常多卷积网络结构设计,事实上,在inception和resnet网络提出并相对完善以后,网络结构的设计就不再爆发式出现了,这两大类网路涵盖了大部分应用的卷积网络结构。在本文中,我们来一起看一些最近一年研究较多的轻量级卷积网络结构,这些网络主要的设计目标是——在保证一定的识别精度情况下,尽可能减少网络规模(参数量、计算量)。最直接的设计目标就是用于手机等移动终端中(CPU),让原创 2017-08-25 22:16:54 · 25023 阅读 · 1 评论 -
深度学习/机器学习入门基础数学知识整理(五):Jensen不等式简单理解,共轭函数
Jensen不等式及其延伸 [1]凸函数最基本的不等式性质,又称Jensen不等式 f(θx+(1−θ)y)≤θ f(x)+(1−θ) f(y)f(θx+(1−θ)y)≤θ f(x)+(1−θ) f(y)f(\theta x+(1-\theta)y)\leq \theta\ f(x)+ (1-\theta)\ f(y) 许多著名的不等式都是由Je...原创 2018-07-30 00:33:41 · 3654 阅读 · 0 评论 -
深度学习/机器学习入门基础数学知识整理(六):Hoeffding不等式,
开写之前先推荐一个林轩田先生的书,《Learning From Data》,我从网上得到电子版资源放在这里获取,仅用于学习交流之用,不可用与商用,谢谢。网上还有配套的Slides,我虽然还未看过这本书,但是浏览了一下非常不错,mark一下,希望后面有时间可以静下心来学习一下。直观理解本章记录一下霍夫丁不等式 Hoeffding Inequality,以及占个位,以后其他类似的不等式...原创 2018-08-26 22:36:02 · 5382 阅读 · 0 评论 -
我的Blog文章索引::机器学习方法系列,深度学习方法系列,三十分钟理解系列等
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、机器学习技术感兴趣的同学加入。以下是我利用业余时间在自己博客中写的文章,主要是一些基础、经典算法的整理,目的一方面是为了科普机器学习技术,让更多同学可以知道什么是机器学习;另外一方面也是督促自己在工作之余还可以抽时间学习知识,温故知新,以备查用。本文会原创 2018-01-21 21:59:38 · 7446 阅读 · 3 评论 -
深度学习方法(十五):知识蒸馏(Distilling the Knowledge in a Neural Network),在线蒸馏
Distilling the Knowledge in a Neural Network这篇介绍一下Hinton大神在15年做的一个黑科技技术,Hinton在一些报告中称之为Dark Knowledge,技术上一般叫做知识蒸馏(Knowledge Distillation)。核心思想是通过迁移知识,从而通过训练好的大模型得到更加适合推理的小模型。这个概念最早在06年的Paper: Model C...原创 2018-10-15 22:44:35 · 75022 阅读 · 4 评论 -
深度学习方法(十六):Batch Normalization及其变种——Layer Norm, Group Norm,Weight Norm等
很久没写博文了,这几天是元旦假期,抽一点时间写一些简单的内容,大家2018年一起加油,天天向上哈!本文的内容包括:Batch NormalizationWeight NormalizationLayer NormalizationBatch RenormalizationBatch Normalization加粗 Ctrl + B 列表内容斜体原创 2019-03-29 22:03:21 · 6537 阅读 · 1 评论 -
深度学习方法(十七):word2vec算法原理(1):跳字模型(skip-gram) 和连续词袋模型(CBOW)
word embedding算法中最为经典的算法就是今天要介绍的word2vec,最早来源于Google的Mikolov的:1、Distributed Representations of Sentences and Documents2、Efficient estimation of word representations in vector space也是开创了无监督词嵌入的新局面,让...原创 2019-05-26 20:37:55 · 18760 阅读 · 1 评论 -
[重磅]Deep Forest,非神经网络的深度模型,周志华老师最新之作,三十分钟理解!
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术感兴趣的同学加入。深度学习最大的贡献,个人认为就是表征学习(representation learning),通过端到端的训练,发现更好的features,而后面用于分类(或其他任务)的输出function,往往也只是普通的softmax(或者其他一些经原创 2017-03-06 00:03:08 · 25079 阅读 · 5 评论 -
ISSCC 2017论文导读 Session 14 Deep Learning Processors,DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN
DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Processor for General-Purpose Deep Neural Networks单位:KAIST(韩国科学技术院,电子工程-半导体系统实验室)KAIST是ISSCC的常客,一年要在上面发好几篇芯片论文,16年ISSCC上Session 14有一半的paper是出自KAIST的,只能说怎一个牛字了得原创 2017-02-12 23:42:54 · 4896 阅读 · 1 评论 -
深度学习方法(八):自然语言处理中的Encoder-Decoder模型,基本Sequence to Sequence模型
Encoder-Decoder(编码-解码)是深度学习中非常常见的一个模型框架,比如无监督算法的auto-encoding就是用编码-解码的结构设计并训练的;比如这两年比较热的image caption的应用,就是CNN-RNN的编码-解码原创 2017-01-19 00:07:14 · 38169 阅读 · 3 评论 -
今天开始学模式识别与机器学习(PRML),章节5.1,Neural Networks神经网络-前向网络。
《模式识别与机器学习》PRML第5章介绍了神经网络neural network,是最近非常火的deep learning的基础之一。原创 2015-01-27 23:13:08 · 3286 阅读 · 0 评论 -
谷歌工程师利用和语言翻译类似的技术开发出了一个用于翻译图片主题的机器学习算法
将一种语言自动翻译成另一种语言一直以来都是难以攻克的问题。但最近几年,谷歌通过开发机器翻译算法改变了传统的翻译过程,通过谷歌翻译从本质上改变了跨文化翻译交流。转载 2015-01-19 22:35:52 · 1570 阅读 · 0 评论 -
深度学习方法:受限玻尔兹曼机RBM(一)基本概念
最近在复习经典机器学习算法的同时,也仔细看了一些深度学习的典型算法。深度学习是机器学习的“新浪潮”,它的成功主要得益于深度“神经网络模型”的优异效果。这个小系列打算深入浅出地记录一下深度学习中常用的一些算法。第一篇先写一下“受限玻尔兹曼机“RBM。原创 2015-04-17 07:53:18 · 30519 阅读 · 1 评论 -
深度学习方法:受限玻尔兹曼机RBM(二)网络模型
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术、应用感兴趣的同学加入。上解上一篇RBM(一)基本概念,本篇记叙一下RBM的模型结构,以及RBM的目标函数(能量函数),通过这篇就可以了解RBM到底是要求解什么问题。在下一篇(三)中将具体描述RBM的训练/求解方法,包括Gibbs sampling和对比原创 2015-04-22 00:20:57 · 15469 阅读 · 3 评论 -
机器学习方法(五):逻辑回归Logistic Regression,Softmax Regression
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术、应用感兴趣的同学加入。逻辑回归可以说是最为常用的机器学习算法之一,最经典的场景就是计算广告中用于CTR预估,是很多广告系统的核心算法。原创 2015-05-12 22:56:53 · 13567 阅读 · 2 评论 -
深度学习开源工具——caffe介绍
Caffe 此前听过没用过,所以报告前自己试运行了一下,参照 caffe官方教程。Caffe 安装、上手都很快,Protobuf 式的层定义很直观,模型修改或算法调整变得很容易,相当于只需要改配置文件。还找到了他们放在 Google Docs 上一个教程 PPT, DIY Deep Learning for Vision: a Hands-On Tutorial with Caffe ,后来发转载 2015-05-15 00:22:35 · 5523 阅读 · 1 评论 -
深度学习方法:受限玻尔兹曼机RBM(四)对比散度contrastive divergence,CD
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术、应用感兴趣的同学加入。上篇讲到,如果用Gibbs Sampling方法来训练rbm会非常慢,本篇中介绍一下对比散度contrastive divergence, CD算法。我们希望得到P(v)P(\textbf{v})分布下的样本,而我们有训原创 2015-12-31 22:29:08 · 16082 阅读 · 5 评论 -
深度学习方法:受限玻尔兹曼机RBM(三)模型求解,Gibbs sampling
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术、应用感兴趣的同学加入。本篇重点讲一下RBM模型求解方法,其实用的依然是梯度上升方法,但是求解的方法需要用到随机采样的方法,常见的有:Gibbs Sampling和对比散度(contrastive divergence, CD)算法。RBM原创 2015-12-19 08:56:56 · 16517 阅读 · 2 评论 -
深度学习方法(五):卷积神经网络CNN经典模型整理Lenet,Alexnet,Googlenet,VGG,Deep Residual Learning
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术感兴趣的同学加入。关于卷积神经网络CNN,网络和文献中有非常多的资料,我在工作/研究中也用了好一段时间各种常见的model了,就想着简单整理一下,以备查阅之需。如果读者是初接触CNN,建议可以先看一看“Deep Learning(深度学习)学习笔记整理系原创 2016-01-02 11:18:40 · 106563 阅读 · 12 评论 -
深度学习方法(六):神经网络weight参数怎么初始化
神经网络,或者深度学习算法的参数初始化是一个很重要的方面,传统的初始化方法从高斯分布中随机初始化参数。甚至直接全初始化为1或者0。这样的方法暴力直接,但是往往效果一般。本篇文章的叙述来源于一个国外的讨论帖子[1],下面就自己的理解阐述一原创 2016-02-12 17:27:51 · 26983 阅读 · 1 评论 -
一张图解AlphaGo原理及弱点
AlphaGo在线对弈过程包括以下5个关键步骤:其核心思想实在蒙特卡洛搜索树(MCTS)中嵌入了深度神经网络来减少搜索空间。AlphaGo并没有具备真正的思维能力。 1. 根据当前盘面已经落子的情况提取相应特征; 2. 利用策略网络估计出棋盘其他空地的落子概率; 3. 根据落子概率来计算此处往下发展的权重,初始值为落子概率本身(如0.18)。实际情况可能是一个以概率值为输入的函数,此处为了理解简便。转载 2016-03-15 21:55:36 · 7296 阅读 · 0 评论 -
深度学习方法(九):自然语言处理中的Attention Model注意力模型
上一篇博文深度学习方法(八):Encoder-Decoder模型,基本Sequence to Sequence模型描述了基本的Encoder-Decoder模型,在作为翻译模型的时候,这种基本的Encoder-Decoder模型有较大缺点,就是Encoder部分每一个输入对Decoder部分每一个输出的贡献都是一样的。下面先看一个例子[1],输入的是英文句子:Tom chase Jerry,Enco原创 2017-02-04 00:27:43 · 18942 阅读 · 4 评论 -
Deep Learning关于Vision的Reading List
主要是顺着Bengio的PAMI review的文章找出来的。包括几本综述文章,将近100篇论文,各位山头们的Presentation。全部都可以在google上找到。BTW:由于我对视觉尤其是检测识别比较感兴趣,所以关于DL的应用主要都是跟Vision相关的。在其他方面比如语音或者NLP,很少或者几乎没有。个人非常看好CNN和Sparse Autoencoder,这个list也反映了我的偏好,仅供参考。转载 2015-01-19 23:13:32 · 1945 阅读 · 0 评论