深度学习
文章平均质量分 94
MarDino
这个作者很懒,什么都没留下…
展开
-
Unormalized Resnet
介绍现在BN层被广泛应用于图像分类网络,批量归一化的特性能保证信号不会过大,能良好的传播到下一层神经网络当中。但它也有一些缺点,如:依赖bachsize,当batchsize较小时,效果不好破坏一个batch内样本之间的独立性带来额外的计算和显存开销导致奇怪的Bug本文试图从信号传播可视化,合适的权重初始化等角度,摆脱CNN对BN层的依赖,保证每一层网络的信号传播(不至于信号幅度过大,爆炸)。前排提醒:个人觉得这篇文章十分有意思,但是涉及到探索CNN机制避免不了繁重的公式推导,希望各位能有原创 2021-02-15 11:09:53 · 341 阅读 · 0 评论 -
自动微分
绍计算机程序的求导机制分为四种人工计算出导数,并写成代码形式数值计算微分,即取极限求导数符号微分,使用表达式来计算导数自动微分比如下面的程序所示import numpy as npdef sigmoid(x): """ Compute sigmoid Function """ return 1 / (1+np.exp(-x))def sigmoid_grad(x): return np.exp(-x) / np.square(1 + np原创 2021-01-05 20:48:32 · 1206 阅读 · 0 评论 -
Vision transformer
太长不看版Vision Transformer将CV和NLP领域知识结合起来,对原始图片进行分块,展平成序列,输入进原始Transformer模型的编码器Encoder部分,最后接入一个全连接层对图片进行分类。在大型数据集上表现超过了当前SOTA模型前言当前Transformer模型被大量应用在NLP自然语言处理当中,而在计算机视觉领域,Transformer的注意力机制attention也被广泛应用,比如Se模块,CBAM模块等等注意力模块,这些注意力模块能够帮助提升网络性能。而我们的工作展示了不需原创 2020-11-28 16:09:06 · 35483 阅读 · 18 评论 -
2020-11-17
Beam Searchbeam search 束搜索是基于穷举搜索和贪心搜索的折中搜索方案穷举搜索假设我有 A B C 三个词需要解码我们可以穷尽所有排列组合,一共是27种,因为3个时间步,每个时间步都有3个选择,组合有:AAA AAB AAC ABA ACA 。。。。这种搜索带来的问题在于时间复杂度过大贪心搜索贪心搜索仅考虑当前状态下最优的组合我们先看T1时间步,发现是A概率最高。于是我们以A为基础继续看T2时间步,组合有: AA, AB, AC,然后发现是与B组合概率高,因此以A原创 2020-11-17 10:14:24 · 174 阅读 · 0 评论 -
HS-Resnet
太长不看版这是最近百度的一篇网络结构设计文章,该网络结构是手工设计得来,主要改进在对特征图多级划分卷积,拼接,提升了网络的精度,同时也降低了推理时间。个人感觉是res2net,ghostnet的结合,并且训练阶段没引入过多的trick,最后的实验结果很惊艳,或许是炼丹的一个好选择。前言在该工作内,我们发现多层级的特征对视觉任务效果提升明显,因此设计了一个即插即用的多级分离模块(Hierarchical-Split Block)。HS-Block包含了多个层级特征图的分离和拼接,我们将其替换到Resn原创 2020-11-07 13:33:29 · 1667 阅读 · 3 评论 -
F3net 商汤Deepfake检测模型
前言这篇论文是商汤团队在ECCV2020的一个工作:Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues,通过引入两种提取频域特征的方法FAD (Frequency-Aware Decomposition) 和LFS (Local Frequency Statistics) ,并设计了一个 MixBlock 来融合双路网络的特征,从而在频域内实现对Deepfake的检测介绍随着Deepfake技术不断原创 2020-10-01 19:04:15 · 2932 阅读 · 4 评论 -
learning in the frequency domain
前言传统的CNN都是在图像的空间域上进行特征学习,受限于显存限制,CNN的输入图像不能太大,最常见的尺寸就是224x224。而常用的预处理(Resize),以及CNN中的下采样,会比较粗暴的损失数据的信息。阿里达摩院联合亚利桑那州大学提出了基于DCT变换的模型,旨在通过DCT变换保留更多原始图片信息,并减少CPU与GPU的通信带宽,最后的实验也证明该模型的有效性原始论文地址:Learning in the Frequency Domain代码地址 DCTNet介绍大部分CNN模型只能接受 224x原创 2020-09-23 20:22:03 · 1642 阅读 · 0 评论 -
Repulsion Loss解决行人遮挡问题
介绍本文是旷视研究院CVPR2018上的一篇工作,在检测行人任务中,由于行人之间互相遮挡,导致传统的检测器容易受遮挡的干扰,给出错误的预测框。研究人员先是从数据集上进行分析,定量描述了遮挡对行人检测带来的影响。后面受吸引,排斥的启发,提出了Repulsion Loss来尽可能让预测框贴近真实框的同时,又能与同类排斥,进而避免误检。问题引入常见的遮挡问题可以再被细分为主要两类类间遮挡,即目标被其他类遮挡住。举个例子,一个行人遛狗,人体下半部分就可能被狗狗遮住类内遮挡,目标物体被同类遮挡住,原创 2020-08-30 15:30:08 · 1808 阅读 · 0 评论 -
计算图
前言相信各位做算法的同学都很熟悉框架的使用,但未必很清楚了解我们跑模型的时候,框架内部在做什么,比如怎么自动求导,反向传播。这一系列细节虽然用户不需要关注,但如果从一道算法题开始相信有算法基础的同学,应该都知道迪杰斯特拉的双栈算术表达式求和这个经典算法。他的原理是利用两个栈分别存放运算数,操作。根据不同的情况弹出栈里的元素,并进行运算,我们可以具体看下图这里讨论的是最简单的情况,我们根据操作符的优先级,以及括号的种类(左括号和右括号),分别进行运算,然后得到最终结果。神经网络里怎么做?在神经网原创 2020-08-05 12:41:23 · 539 阅读 · 0 评论 -
Rethinking ImageNet Pre-training
前言这篇文章是何恺明组做的一个偏实验的工作,主要是探究ImageNet预训练的模型,在迁移到其他任务比如目标检测,分割等会不会比从头训练模型的要更好。可以总结一下就是在数据集充分的条件下,各个任务里,从头训练的效果并不比在ImageNet预训练过的要差从头训练的模型需要更多的迭代次数,才能追上预训练模型Finetune的结果ImageNet预训练的作用更多的是加速模型收敛,但不意味最后模型表现的好当迁移数据量极少时,ImageNet预训练过的模型表现的要比从头训练的模型要好很多摘要如今各个原创 2020-08-03 10:13:54 · 606 阅读 · 0 评论 -
Win10和Ubuntu20双系统安装
前言笔者前期搞了一台新主机增加开发需求,想用Linux写代码,win打游戏。配好的主机送过来已经自带win10系统了,下面废话不多说,直接装机制作启动盘首先下rufus,其他启动盘制作软件也可以然后我们去下载Ubuntu Linux镜像,这里建议去国内的镜像站下载http://mirrors.ustc.edu.cn/ubuntu-releases/下载完后,我们使用rufus把镜像录到U盘了,录之前会需要格式化U盘安装步骤https://www.bilibili.com/video/BV11原创 2020-08-01 22:28:03 · 586 阅读 · 0 评论 -
PP-YOLO
摘要目标检测是计算机视觉一个重要的领域。而目标检测算法的准确性和推理速度不可兼得,我们工作旨在通过tricks组合来平衡目标检测器的性能以及速度。考虑到yolo3的广泛应用,我们考虑在yolo3基础模型训练得到一个更快,准确率更高的模型,即PP-YOLO介绍最近出现了yolov4,5模型,这些模型也是基于yolo3算法改进得来。但PPYOLO并不像yolov4探究各种复杂的backbone和数据增广手段,也不是靠nas暴力搜索得到一个结构。我们在resnet骨干网络系列,数据增广仅靠mixup的条件下原创 2020-07-26 11:45:00 · 11999 阅读 · 2 评论 -
WSCL
摘要近些年来,因为弱监督目标检测仅需要图片分类级别的label受到了人们广泛的关注,其代价是准确率一定程度的下降。本文提出了一个简单而有效的弱监督协作目标检测框架,基于共享部分特征,增强预测相关性来同时训练强,弱监督两个检测网络。弱监督目标检测网络采取类似WSDDN的结构,强监督目标检测网络采取类似Faster-RNN的结构。最终在数据集上证明了框架的有效性补充WSDDNWSDDN全称是Weakly Supervised Deep Detection Network,即弱监督深度检测网络。只依靠im原创 2020-07-25 18:57:01 · 576 阅读 · 0 评论 -
pip切换源
原创 2020-07-24 15:43:37 · 91 阅读 · 0 评论 -
SmallBigNet
简介时空卷积常用于视频分类任务,然而其有限的视野使其影响网络对视频数据的表征能力为了解决该问题,我们提出了一种SmallBig网络,它分为small biew和big view两个分支其中small view用来捕获核心语义,big view用来捕获上下文语义。同时big view这一分支能给small view更大的感受野。最后SmallBigNet在模型大小近似于常规2D CNN下,得到了3D CNN的准确率介绍时空卷积只对时间维度上有大感受野,因此会对空间信息提取不充分,甚至会引入噪声比原创 2020-07-08 20:47:45 · 512 阅读 · 1 评论 -
记一次平安科技电话面经
前言之前投了很多次平安科技的实习,但都没消息回复。五一前平安科技hr打来电话,让我参与python开发面试(因为自己不确定能不能做算法,所以投递方向填了两个分别是python开发和算法实习生),后续她会发你一个邮件确认面试,十分感谢这个hr又把我捞回到了算法里面,另外需要做一份自我介绍的ppt,介绍项目博客经历什么的,回复给她即可。总的来说问的十分基础且深入,面试官不会特别刁难你,但是问的问题都...原创 2020-05-06 17:44:10 · 1124 阅读 · 1 评论 -
FRN浅析
背景BN批量归一化是深度学习的一个标志性技术。通过假设数据都处于正态分布,将数据进行归一化,从而加快整个网络的训练性能但是由于现在任务越来越复杂,导致我们没有足够显存去存放足够多的批量数据当batch太小的时候,批量归一化效果就没那么好了尽管有GN等等从其他维度上进行归一化的技术,但依旧无法取代BN最近谷歌提出了一个FRN结构。在低batch下的性能依旧稳定结构整个结构不复杂,就是...原创 2020-03-17 17:14:43 · 3390 阅读 · 2 评论 -
YOLOv3 浅析
简介YOLOV3是一种轻量的目标检测网络,他不同于SSD,他是通过对整张图片划分小方块,每个小方块预测一个锚框,最后再和真实框进行一个回归,对锚框微调,得到最后的预测框。骨干网络原文作者采用的是DarkNet,这个网络结构没什么好说的计算逻辑那么整个YOLOV3预测需要计算哪些东西?框内是否包含物体 ,通过sigmoid函数预测一个概率框内物体的坐标,我们这里用xywh来表示,因此...原创 2020-03-17 16:14:57 · 630 阅读 · 0 评论 -
Mogrifier LSTM论文浅析
前言LSTM模型是基于RNN循环网络提出的一种改进的门控网络通过各个门很好地控制了时间步前后的信息他一共有四个门,分别是遗忘门,输入门,候选记忆细胞,输出门他能较好地建模长语义,缓解梯度消失的问题问题提出可以看到我们的输入x和隐藏状态H是相互独立的,理论上来说,当前输入应该是和前一时间步的隐藏状态有关,但是LSTM中只是将这两个进行运算,获得各个门的输出。因此有研究者提出在进入各个...原创 2020-03-02 11:25:38 · 4310 阅读 · 8 评论 -
GhostNet论文笔记及代码分析
综述为了解决移动端CNN部署,我们开发出一种新型的网络结构GhostNet我们通过一系列简单的线性变换来生成所谓的Ghost 特征图这种ghost特征图能揭示隐藏的信息通过两种架构ghost module 和 ghost bottleneck可以构造出我们的轻量级网络,表现也超越了Mobilenet介绍近年来有许多减小模型大小方法提出,其中一系列方法是对丢弃不重要的参数丢弃,然而这种思...原创 2020-02-26 15:15:27 · 2787 阅读 · 0 评论 -
HRNet解析
前 言大多数网络都是由较高的分辨率特征图开始,通过步长为2的卷积块,甚至是池化操作,来逐渐缩小特征图大小,丰富各个通道的信息,最后再通过一个全局池化,输出通道信息。于是HRNet的作者就在思考能否通过并行,来融合多个尺度特征图信息来提高网络的性能,事实上也证明了这种方法的有效。这篇SOTA的模型也常用于目标检测,姿势估计等复杂任务,且表现都十分不错网络结构这是论文里面的一幅图片,看上去十分...原创 2020-02-25 18:17:08 · 2724 阅读 · 2 评论 -
YOLOV3算法详解——设计思想以及候选区域选择
本篇博文是笔者结合百度paddle公开课的一个AI识虫项目对YOLOV3算法做的一个解析完整项目可参考https://aistudio.baidu.com/aistudio/projectdetail/250211什么是目标检测?相信有一定基础的深度学习开发者经常能听到目标检测这个词,那什么任务是目标检测呢。简单地来说目标检测就是让计算机识别出图片里面对应的物体,并标上边界框对于分类任...原创 2020-01-21 14:12:45 · 5131 阅读 · 7 评论 -
解析PEN_NET(基于金字塔式图像修复)——损失函数(感知损失,风格损失,
上一篇博客我简单介绍了下基于金字塔式的图像修复我clone了该项目,并逐步分析,本篇文章主要讲解一下这个项目的损失函数的定义传统基于均方误差损失从一幅缺失的图像转换到一幅修复的图像我们最常想到的就是MSE均方误差损失通过比较每个像素的误差,最后取平方再平均,得到一个loss损失值,并反向传播,对各个层进行梯度下降事实上,均方误差表现的也不错,但是在一些细节,特征上缺失,造成局部的模糊...原创 2020-01-15 11:40:02 · 3164 阅读 · 0 评论 -
基于金字塔式架构的图像修复
基于金字塔式注意力机制的图像修复技术传统的两种修复算法基于边缘像素,利用微分方程来进行填补。首先从边缘确立一个patch?然后在其他区域搜索较为相似的区域,对缺失部分进行填充缺点就是,含有语义的部分较难恢复。基于深度学习网络结构设计开山之作,使用全连接层,只能做到128x128,而且恢复图像较为模糊引入全卷积,增加感受野,修复256x256,最后还有两个辨别器进行判别a...原创 2020-01-14 20:42:54 · 1341 阅读 · 6 评论