![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文
文章平均质量分 88
冲冲冲鸭鸭鸭~
这个作者很懒,什么都没留下…
展开
-
[论文翻译]SegNeXt: Rethinking Convolutional Attention Designfor Semantic Segmentation
我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。近年来,基于transformer的语义分割模型由于自注意编码空间信息的有效性而在语义分割领域占据主导地位。在本文中,我们表明卷积注意是一种比transformer的自注意机制更高效和有效的编码上下文信息的方法。通过重新检查成功的分割模型所拥有的特征,我们发现了导致分割模型性能改进的几个关键因素。这促使我们设计一个新颖的卷积注意力网络,使用廉价的卷积运算。原创 2023-02-12 20:13:27 · 335 阅读 · 0 评论 -
[论文笔记]A ConvNet for the 2020s
视觉识别的“咆哮的20年代”始于ViT的引入,它迅速取代卷积网络(ConvNet)成为最先进的图像分类模型。另一方面,普通的ViT在应用于一般的计算机视觉任务(如物体检测和语义分割)时面临困难。正是分层Transformers(例如Swin Transformer)重新引入了几个ConvNets先验,使得Transformer作为通用视觉主干实际上可行,并在各种视觉任务中表现出出色的性能。然而,这种混合方法的有效性在很大程度上仍然归功于Transformer的内在优势,而不是卷积的固有归纳偏差。原创 2023-01-28 14:16:49 · 837 阅读 · 1 评论 -
MFA-Conformer: Multi-scale Feature Aggregation Conformer forAutomatic Speaker Verification
目录一、简介二、MFA-Conformer本文提出了一种基于Conformer的多尺度特征聚合 (MFA-Conformer)。MFA-Conformer的架构灵感来自于最近在语音识别和说话人验证方面的最先进模型。首先,我们引入了卷积子采样层来降低模型的计算成本。其次,我们采用融合了Transformers和CNNs的Conformer块,有效地捕捉全局和局部特征。最后,来自所有Conformer块的输出特征映射被连接起来,在最终池化之前聚合多尺度表示。 MFA-Conformer整体架构如上图所示。1、c原创 2022-12-06 10:44:02 · 951 阅读 · 0 评论 -
Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs笔记
受ViTs最新进展的启发,在本文中,作者证明了使用几个大的卷积核而不是一堆小的核可能是一个更强大的范式。作者提出了五个指导原则,例如,应用重新参数化的大的深度卷积来设计高效、高性能的大内核cnn。根据指导方针,作者提出了一个纯CNN体系结构RepLKNet,其内核大小与常用的3×3相比大到31×31。RepLKNet在很大程度上缩小了cnn和vit之间的性能差距,例如,与ImageNet上的Swin Transformer和一些典型的下游任务相比,RepLKNet在延迟较低的情况下实现了相当或更好的结果。原创 2022-12-04 09:47:02 · 1096 阅读 · 0 评论 -
BYOL for Audio: Exploring Pre-trainedGeneral-purpose Audio Representations笔记
在现代机器学习系统各个领域中,预训练模型作为特征提取器是必不可少的。在这项研究中,作者假设对一般音频有效的表示应该提供输入声音的多个方面的鲁棒特征。为了识别声音,而不考虑诸如变化的音调或音色等扰动,特征应该对这些扰动具有鲁棒性。为了满足任务的不同需求,如情感或音乐类型的识别,表示应该提供多个方面的信息,如本地和全局特征。为了实现该原则,作者提出了一种自监督学习方法。BYOL-A预训练对音频数据增强不变的输入声音表示,这使得学习到的表示对声音扰动具有鲁棒性。原创 2022-11-07 20:37:05 · 449 阅读 · 0 评论 -
[mean teacher笔记]Mean teachers are better role models
最近提出的时间集成在几个半监督学习基准中取得了先进的成果。它在每个训练示例上保持标签预测的指数移动平均值,并惩罚与此目标不一致的预测。然而,由于目标在每个时代只改变一次,当学习大型数据集时,时间集成变得笨拙。为了克服这个问题,作者提出了mean teacher,一种平均模型权重而不是平均预测标签的方法。mean teacher提高了测试的准确性,并且能够使用比时间集成更少的标签进行训练。作者还证明了良好的网络架构对性能至关重要。原创 2022-10-24 20:35:32 · 5757 阅读 · 0 评论 -
[CCNN]Towards a General Purpose CNN for Long Range Dependencies in ND
卷积神经网络(CNNs)的使用在深度学习中是广泛的,由于一系列理想的模型属性,这导致了一个高效和有效的机器学习框架。然而,性能CNN架构必须针对特定的任务进行定制,必须考虑诸如输入长度、分辨率和维度等因素。在这项工作中,我们通过我们的连续卷积神经网络(CCNN)克服了CNN架构的缺陷,CCNN是一个配有连续卷积核的单一CNN架构,可以用于对任意分辨率、维度和长度的数据的任务,而不需要结构变化。连续卷积核对每一层的长距离依赖进行建模,消除了当前CNN架构中需要的降采样层和任务依赖深度。...翻译 2022-08-08 09:15:19 · 1088 阅读 · 0 评论 -
[UDA]Unsupervised Data Augmentation for Consistency Training
在有标签数据稀缺的情况下,半监督学习在改进深度学习模型方面显示出很大的潜力。在最近的方法中,常见的是对大量未标记数据进行一致性训练,以约束模型预测对输入噪声保持不变。在这项工作中,作者提出了一个关于如何有效地对未标记数据进行噪声处理的新方法,并认为噪声的质量,特别是那些由先进的数据增强方法产生的噪声,在半监督学习中起着至关重要的作用。通过使用先进的数据增强方法(如RandAugment和反向翻译)代替简单的噪声操作,该方法在相同的一致性训练框架下对六种语言和三种视觉任务带来了实质性的改进。.........翻译 2022-08-02 17:21:25 · 1016 阅读 · 1 评论 -
NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better论文研读
目录一、摘要二、模型三、实验 一、摘要有效地微调预训练语言模型(PLMs)对于其在下游任务中的成功至关重要。然而,PLMs可能存在过度拟合训练前任务和数据的风险,这些任务和数据通常与目标下游任务存在差距。现有PLMs 微调的方法可能难以克服这种差距,并导致性能不佳。在《NoisyTune》一文中,提出了一种非常简单但有效的方法NoisyTune,通过微调PLMs参数之前添加一些噪声,帮助PLMs更好地微调下游任务。更具体地说,我们提出了一种矩阵式扰动方法,该方法根据不同参数矩阵的标准差向其添加不同的均匀噪声原创 2022-06-25 16:49:01 · 924 阅读 · 0 评论 -
Sound Event Detection: A Tutorial
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言这里是对《Sound Event Detection: A Tutorial》做的笔记。论文地址:https://arxiv.org/pdf/2107.05463.pdf提示:以下是本篇文章正文内容,下面案例可供参考一、声音事件检测的简单介绍 声音事件检测的目的就是识别出一个音频中声.....原创 2022-05-16 10:03:32 · 4187 阅读 · 2 评论 -
AST:Audio Spectrogram Transformer
目录一、简单介绍二、AST架构三、AST与ViT的不同四、消融实验 1、Impact of ImageNet Pretraining 2、 Impact of Positional Embedding Adaptation 3、 Impact of Patch Split Overlap 4、Impact of Patch Shape and Size 五、论文和代码链接 AST是无卷积、纯基于注意力机制的模型,它直接作用于音频频谱图,并原创 2022-05-14 14:53:56 · 969 阅读 · 2 评论