机器学习
文章平均质量分 81
GY-赵
这个作者很懒,什么都没留下…
展开
-
mini-Imagenet处理
mini-Imagenet 数据集处理原创 2022-11-25 17:46:30 · 2746 阅读 · 5 评论 -
DNN分类指标
神经网络分类指标原创 2022-10-27 09:45:33 · 285 阅读 · 0 评论 -
Dropout回顾
Dropout训练与Bagging训练还不一样,在Bagging情况下,所有模型是独立的,在Dropout情况下,所有模型共享参数,每个模型都继承了父神经网络参数的不同子集,参数共享使得在有限可用的内存下表示指数级数量的模型变得可能。将其视为Bagging的的一种,Bagging是通过集合几个模型降低泛化误差的技术,主要想法是通过分别训练几个不同的模型,然后让所有模型表决测试样例的输出,这是机器学习中常规策略的一个例子,被称为。模型破平均有效的原因是不同模型通常不会再测试集上产生完全相同的误差。......原创 2022-07-27 16:09:44 · 359 阅读 · 0 评论 -
Benchmarking Detection Transfer Learning with Vision Transformers(2021-11)
这篇文章是何凯明在MAE之后关于纯transformer架构用于目标检测下游任务的探索,在MAE最后有所提及,之后还有一篇文章ViTDET一脉相承。对于VIT架构用于视觉任务带来了很多启发。目标检测作为一个中心的下游任务经常用来测试预训练模型的性能,例如训练速度或者精度等。当新的架构如VIT出现时,目标检测任务的复杂性使得这种基准测试变得更加重要。事实上,一些困难(如架构不兼容、训练缓慢、内存消耗高、未知的训练公式等)阻碍了VIT迁移到目标检测任务研究。论文提出了使用VIT作为Mask RCNN back原创 2022-07-05 18:01:22 · 1211 阅读 · 0 评论 -
ConvMAE(2022-05)
ConvMAE可以视为基于MAE的一种简单而有效的衍生品,对其编码器设计和掩码策略的最小但有效的修改。ConvMAE在Conv-transformer网络中应用时,其目的是学习判别性的多尺度视觉表示,并防止pre-train finetune差异化。ConvMAE直接使用MAE的掩码策略将会使transformer layer在预训练期间保持所有的tokens,影响训练效率。因此,作者引入了一种层次化掩码策略对应于卷积阶段的掩码卷积,确保只有一小部分可视化token(没有mask掉的)送入transfor原创 2022-07-04 21:38:36 · 1053 阅读 · 4 评论 -
MAE
作者开门见山说明了深度学习结构拥有越来越大的学习容量和性能的发展趋势,在一百万的图像数据上都很容易过拟合,所以常常需要获取几百万的标签数据用于训练,而这些数据公众通常是难以获取的。MAE的灵感来源是DAE(denosing autoencoder),去噪自编码器就是encoder的输入部分加上噪声作为输入,decoder还原真实的输入,其损失函数为decoder的输出与真实输入之间的均方误差,相比与原来的autoencoder,DAE必须去除噪声,学习到输入数据的重要特征。在NLP领域中self-super原创 2022-07-01 17:04:42 · 1164 阅读 · 0 评论 -
Swin-Transformer(2021-08)
一直到写下这篇笔记开始,基于Swin的模型仍在paperwithcode上仍然霸榜Object Detection等多个榜单。很多博客都已经介绍的非常详细了,这里只记录一下自己学习过程中遇到的困惑。Swin与ViT的对比,ViT将image划分为固定大小的patch,以patch为单位进行attention计算,计算过程中的feature map 分辨率是保持不变的,并且ViT为了保持与NLP的一致性,添加了一个额外的class token,最后用于分类。因此ViT不太适用于检测等下游任务,无法提取多原创 2022-06-25 17:35:13 · 975 阅读 · 8 评论 -
Relative Positional Bias -- [Swin-transformer]
论文中对于这一块的描述不是很清楚,特意记录一下学习过程。这篇博客讲解的很清楚,请参考阅读https://blog.csdn.net/qq_37541097/article/details/121119988以下通过代码形式进行一个demo。输出计算相对坐标索引时,采用了一种我之前没见过的扩张维度的方法,简介高效输出输出2.计算相对索引输出转换为[4,4,2],相当于得到4个4*2的坐标对,一行横坐标,一行纵坐标输出输出输出这里就得到相对位置索引,这里对应的值需要到rela原创 2022-06-25 15:57:30 · 886 阅读 · 1 评论 -
FPN-Feature Pyramid Network
思维脑图总结原创 2022-06-07 19:38:06 · 125 阅读 · 0 评论 -
RCNN系列总结
思维脑图总结原创 2022-06-07 15:28:46 · 86 阅读 · 0 评论 -
VITDET(2022-03)--Exploring Plain Vision Transformer Backbones for Object Detection
这篇论文是作者Benchmarking Detection Transfer Learning with Vision Transformers论文的扩展,没有正式出版,也没有经过同行评议。论文研究了使用一个单一的、没有层次设计的VIT架构作为backbone用于目标检测领域,使得原始VIT经过微调就可用于检测任务而不需要重新设计一个层次的backbone进行预训练。主要有两点:原始的VIT不像CNN一样,是一个非层次的设计,从头到尾保持单一尺度的feature map。因此,在目标检测中遇到了挑战,例如多原创 2022-06-06 11:49:26 · 1055 阅读 · 0 评论 -
Integral Migrating Pre-trained Transformer Encoder-decoders for Visual Object Detection(imTED)
Arxiv上一篇基于MAE 用于目标检测的文章,是在查找小样本文章的时候发现的,因为与自己的idea有点相似,所以仔细读了一遍,代码还未开源。其中有个作者Peng Zhiliang ,不知道是不是复现MAE的大佬本佬,整篇论文读下来还是比较容易理解的,但是感觉和小样本有关的部分很少,只是一个附带点,反而大量篇幅是在讨论如何将MAE整体迁移到目标检测领域,个人觉得可能是sota的结果不太好,所以加了小样本的部分。论文开篇明义,以参数初始化为切入点,提到现代检测器利用视觉VIT作为backbone,但检测的其它原创 2022-06-02 18:32:23 · 973 阅读 · 5 评论 -
Self-Attention with Relative Position Representations(2018)
transformer与递归和卷积神经网络不同,它不显式地对其结构中的相对或绝对位置信息进行建模在这项工作中,本文提出了另一种方法,扩展自我注意机制,以有效地考虑相对位置的表示,或序列元素之间的距离。在这项工作中,我们提出了一种将相对位置表征结合到transformer self-attention中的有效方法。即使完全替换其绝对位置编码,我们也在两个机器翻译任务上证明了翻译质量的显著提高。主要对相对位置编码做了一个扩展,attention中在第一层之前,将基于变化频率的正弦的位置编码与编码器和解码器.原创 2022-05-11 20:47:52 · 629 阅读 · 1 评论 -
attention is all you need --transformer中的细节
一切故事开始于2017年谷歌的一篇论文:attention is all you need ,由于讲解transformer结构的视频、博客很多,推荐阅读以下内容:李宏毅2021 ML课程 self-attention && transformerhttp://jalammar.github.io/illustrated-transformer/以上两个参考内容足以学会什么是transformer。以下记录比较容易忽略的几个知识点:transformer中的position e原创 2022-05-11 15:27:15 · 324 阅读 · 0 评论 -
SSD(2016)
introduction提出一种简单的叫SSD的深度神经网络用于目标检测,该方法有几个特点:把边界框的输出空间离散为在feature map的每个位置上具有不同大小和尺寸的一组默认的box网络结合了来自不同分辨率的多个feature map的预测,可以自然的处理不同大小的目标第一个基于目标检测器的不需要为边界框采样像素或特征的深度网络,同时与那些采样的方法一样精确。SSD大大提升了高精度检测的速度,59FPS with mAP 74.3% on VOC 2007 test,VS.Faster.原创 2022-04-30 11:39:35 · 938 阅读 · 0 评论 -
R-FCN(2016)
introduction本文提出了一种基于区域的全卷积神经网络用于目标检测,取得了与Faster R-CNN差不多的精度,但在训练和推理方面表现更好。FCN有两个亮点:不同于Fafster RCNN ,执行上百次代价高昂的RoI,FCN全卷积几乎共享在整张图像上的计算提出了位置敏感score maps用于解决图像分类的平移不变性与目标检测任务的平移同变性之间的矛盾。(因为网络既要用于分类又要用于检测)平移不变性(translation -invariance)是指目标的平移不会对结果产生影响.原创 2022-04-24 22:21:14 · 3393 阅读 · 0 评论 -
Densenet(2018)
实验结果不同Densenet对比ResNet与DenseNet对比Network改进方法resenet 网络结构如下:densenet:codeimport tensorflow as tffrom tensorflow.keras import layers, Sequential, Modelclass BottleNeck(layers.Layer): def __init__(self, growth_rate): super(Bottl.原创 2022-04-24 15:07:07 · 354 阅读 · 0 评论 -
pytorch中的插值算法函数模块--interpolate
#### 官方函数说明torch.nn.functional.interpolate(input, size=None, scale_factor=None, mode='nearest', align_corners=None, recompute_scale_factor=None)根据给定的size或者scale_factor(放缩因子)下采样/上采样 输入mode指定使用的插值算法支持输入为时序、空间或者三维立体等输入,输入应该是3-D、4-D、5-D输入维度格式应该是: mini-b原创 2022-04-24 10:38:20 · 5510 阅读 · 0 评论 -
Mask R-CNN(2018-01)
Mask R-CNN由Faster R-CNN通过在每一个ROI(Region ofinterest)增加一个预测分割mask的分支扩展而来,与用于分类和bounding box回归的现有分支并行。原创 2022-04-23 21:46:19 · 2544 阅读 · 0 评论 -
轻量化网络-SqueezeNet(2016)
为什么需要轻量化网络?小模型有更高效的分布式训练效率。通信开销一直是分布式CNN训练的制约因素,在数据并行训练中,通信开销与模型参数是成比例的,模型越小,通信开销就越小。推送一个新模型到客户端,开销更小。例如自动驾驶领域,汽车辅助驾驶系统中的CNN模型在更新的时候需要更大的数据传输,以AlexNet为例,从服务器到客户端至少需要240MB 通信开销,更小的模型需要更少的开销,日常更新更容易。更容易在FPGA或嵌入式设备上部署。由于嵌入式设备经常是片内存储,不能外挂存储器件,同时存储空间越大,价格越.原创 2022-04-17 11:29:12 · 3465 阅读 · 0 评论 -
transformer综述汇总与变形分析(持续更新)
Note: 本文收集transformer领域的较流行的综述文章,将认为比较重要的内容整理在一起,用于学习和提供思路。1.谷歌:Efficient Transformers: A Survey(2020年9月)2.华为、北大:A Survey on Visual Transformer(2020年12月)3.复旦大学邱锡鹏组综述:A Survey of Transformers(2021年6月15日)随着transfomer的成功,各种基于原始transfomrer的变形不断被提出,作者将其归纳为3原创 2022-04-12 11:13:43 · 14061 阅读 · 4 评论 -
Faster R-CNN(2016)
introductionFaster R-CNN 是第一个真正意义上的端到端的深度学习目标检测算法。Fast R-CNN虽然增加了检测的速度和精度,但是object proposal 仍然需要通过外部算法来产生,暴露出了region proposal computation 仍然是一个瓶颈。论文引入一种RPN(Region proposal Network),与检测网络共享full-image的卷积特征,几乎不需要额外的计算资源。作者观察发现被基于region的检测网咯使用的卷积特征映射(如Fast .原创 2022-03-22 11:26:07 · 1590 阅读 · 0 评论 -
Fast-RCNN(2015)
introductionFast-RCNN (Fast Region based Convolutional Network)在之前的工作任务上建立了更有效的分类proposal,使用VGG16进行训练,比起RCNN快9倍,测试时间快213倍,比起SPPnet训练快3倍,测试快10倍。深度卷积网络用于目标检测带来两个主要挑战:大量候选目标位置(proposal)需要处理这些候选仅仅提供了粗略的定位必须调整取得更精确的定位。对比RCNN与SPPNet:Region-based Convolu.原创 2022-03-19 22:50:05 · 3368 阅读 · 0 评论 -
SPPNet(2015)
introductionRCNN首次将卷积操作引入检测领域用于提取特征,然而现有的深度卷积网络需要输入固定尺寸的图片,这个需求可能会导致对于任意scale/size的图片的识别精确度下降。【**深度卷积神经网络由卷积层和全连接层组成,卷积层对于任意大小的图片都可以进行卷积运算提取特征,输出任意大小的特征映射,而全连接层由于本身的性质需要输入固定大小的特征尺度,所以固定尺寸的需求来自于FC层,即使对输入图片进行裁剪、扭曲等变换,调整到统一的size,也会导致原图有不同程度失真、识别精度受到影响**】SP.原创 2022-03-16 22:13:25 · 3554 阅读 · 0 评论 -
如何理解inductive bias
inductive 归纳,deductive 演绎inductive bias 经常翻译为 归纳偏好、归纳偏置在西瓜书中,有这样一段解释:机器学习算法在学习过程中对某种类型的偏好,成为归纳偏好(inductive bias)。或简称为“偏好”。任何一个机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。可以想象,如果没有偏好,西瓜学习算法产生的模型每次在进行预测时随机抽取的训练集上的等效假设,那么对这个新瓜而言,模型时而告诉我们它是好瓜,时原创 2022-03-13 17:54:27 · 5219 阅读 · 0 评论 -
inception V2/3(2015)
Inception v2 and Inception v3 were presented in the same paper.** 外网blog**note V1-V4https://towardsdatascience.com/a-simple-guide-to-the-versions-of-the-inception-network-7fc52b863202https://hackmd.io/@bout.原创 2022-03-13 15:22:33 · 1305 阅读 · 0 评论 -
Lenet5(1998)
先读https://blog.csdn.net/zhangjunhit/article/details/53536915https://blog.csdn.net/qianqing13579/article/details/71076261第三个卷积层,S2 6个1010的特征映射,C3是16个1010的特征映射,怎么做的呢?关注C3层Why not connect every S2 feature map to every C3 feature map? The reason is two.原创 2022-03-13 14:53:36 · 1770 阅读 · 2 评论 -
R-CNN(2014)
介绍背景和问题 基于PASCL VOC 数据集上目标检测的性能在最近些年都没有什么大的突破,视觉识别任务过去十年取得进步都是基于传统算法SIFT 和HOG,都是微小的进步。有许多人进行了新方法的尝试,但是由于缺乏监督训练的算法没有取得大的突破。但是CNN 的出现以及ALexNet在ImageNet 数据集上的优秀结果(同时伴随着Relu 和Dropout 等正则化方法的应用) 带来一种可能,把CNN 的分类结果应用到目标检测领域的PASCAL VOC 数据集上会怎么样呢?创新 这篇论文是第一篇介原创 2021-05-29 13:25:07 · 158 阅读 · 0 评论 -
NIN(Network in Network)
abstract作者提出一种方法增强感受野的分辨能力(应该是指提取特征的能力),传统卷积神经网络在非线性激活函数之后接一个线性滤波器扫描输入,作者赋予感受野一个更复杂的结构(微型神经元网络)提取数据特征,和CNN一样通过滑动窗口获取特征映射,然后传递给下一层。Deep NIN通过以上描述的多重结构实现,在分类层利用全局平均池化提高micro network的性能,这样更容易解释和防止过拟合。1.introduction特征映射的定义:传统CNN包含多重卷积层和池化层,在每个输入的局部,卷积层进行线性.原创 2021-05-10 19:02:14 · 445 阅读 · 0 评论 -
Python常用库
宝藏库1.点击scikit-learn主页包含各种机器学习算法的实现(监督,无监督等等)原创 2021-05-06 20:33:45 · 105 阅读 · 0 评论 -
VGG Network
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITIONintroduction文章主要研究了卷积神经网络深度对于实际效果的影响,采用了一个3*3小尺寸卷积核,固定了其它参数,逐渐增加网络深度,在ILSVRC数据集上进行实验。读完这篇论文应该明白以下几个问题:1.为什么卷积网络中有时候会采用1*1的卷积?有什么作用?2.大尺寸的卷积可以用小尺寸卷积替代吗?或者说大的感受野可以用几个较小感受野替代吗?3.深度对..原创 2021-05-05 21:42:00 · 300 阅读 · 0 评论 -
Alexnet
1.introduction 刚开始文章就说了现在(指当时)的训练数据集都是小尺寸的,简单的识别任务可以很好的完成,但是在现实中要考虑很多变量,为了更好的应用就要有更多更大的数据集,人们也已经意识到小数据集的缺点,但是直达最近获取上百万带标签图像才成为可能。为了从上百万图像中识别出几千张目标,我们需要拥有更强大学习能力的模型,同时我们的任务复杂度特别高,即使是imagenet这样的数据集也无法轻易完成,因此我们需要很多先验知识补偿我们没有的所有数据,卷积神经网络(CNN)构成了这类模型之一...原创 2021-04-26 11:25:47 · 164 阅读 · 0 评论 -
数据集打乱排序
#处理图片trainImg_file = os.listdir(trainImg_path)testImg_file = os.listdir(testImg_path)data1,data2=[],[]for i in trainImg_file: #print(i) file = os.path.join(trainImg_path, i) img = Image.open(file) img = img.crop((25, 25, 225, 225))原创 2020-11-29 15:27:20 · 488 阅读 · 0 评论 -
【转载】深度学习中几种常见的激活函数理解与总结
点击获取原文链接学习神经网络的时候我们总是听到激活函数这个词,而且很多资料都会提到常用的激活函数,比如Sigmoid函数、tanh函数、Relu函数。肯定很多人刚开始和我一样一头雾水,接下来就让我们详细了解一下激活函数方方面面的知识。目录1.激活函数的概念和作用;2.通俗的理解一下激活函数(图文结合);3.几种激活函数的对比;4.如何选择合适的激活函数?1.激活函数的概念和作用概念:神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值,并将输入值传递给下一层转载 2020-12-04 16:50:06 · 966 阅读 · 0 评论