路飞快来找我-CSDN博客

原创 Learn to Augment: Joint Data Augmentation and Network Optimizationfor Text Recognition

本文提出了一种新的文本图像增强方法。①给定一个文本图像，定义一组自定义基准点（将图像平均划分为N个面片，并沿图像的顶部和底部边界初始化2（N+1）个基准点p）。②代理网络：通过代理网络去预测移动状态（移动状态表示一组自定义基准点的移动）。给定一幅图像，随机移动基准点以扭曲图像。移动操作(∆十、∆y），每个基准点都与两个因素有关：1）运动方向，即(∆十、∆y） )；2）运动的距离，即(|∆x ||∆y |）。实验发现对距离的学习无法收敛。因此，将学习空间限制在运动方向。根据移动方向，在半径范围.

2022-05-24 11:37:56 354

原创 FRCRN: BOOSTING FEATURE REPRESENTATION USING FREQUENCY RECURRENCE FOR MONAURALSPEECH ENHANCEMENT

[ICASSP 2022]Motivation融合卷积编码器-解码器(CED)结构和循环结构的卷积递归网络(CRN)在单耳语音增强中取得了良好的性能。然而，跨频率上下文的特征表示是高度受限的，这是因为在CED卷积中感受野受限。本文提出了一种卷积循环编码器(CRED)结构，以提高沿频率轴的特征表示。除了CRED，还在编码器和解码器之间插入两个堆叠的FSMN层，以进一步模拟时间动态。将提出的框架命名为Frequency Recurrent CRN (FRCRN)。Method目的是从已损坏的语音

2022-05-04 18:48:44 1031

原创 Phase Vocoder For Time Stretch Based On Center Frequency Estimation论文阅读

Motivation本文提出了一种基于中心频率估计的相位声码器相位校正算法。相位声码器中用于时间扩展的移相估计是一个重要问题，目前尚无一致的解。在许多情况下，由STFT、相位校正和ISTFT组成的简单方法不能产生高质量的结果，因此提出了使用多个FFT大小和通过振荡器组进行正弦波合成等方法，但不幸的是，这些方法的计算成本很高。而本文所提出的方法采用了一种新的相位校正算法，可以产生高质量的结果，同时实现高度的并行性，从而更快地执行BackgroundA Phase vocoder相位声码器是一.

2022-04-28 22:08:08 531 1

原创 TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN-T

题目：TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODEL WITH TRANSFORMER ENCODERS AND RNN-T LOSS [ICASSP 2020 arXiv:2002.02562v2]Motivation1、基于transformer的模型使用解码器特征来处理编码器特征，这意味着解码必须以标签同步的方式完成，从而对流语音识别应用提出了挑战。2、随着输入序列的大小，self-attention的

2022-04-22 17:13:44 1830

原创 FFC-SE: Fast Fourier Convolution for Speech Enhancement

[arXiv:2204.03042v1]Motivation谱图相位的直接估计是一个挑战。为此，提出各种解决办法。这些方法包括解耦幅度和相位估计，以及使用单独的网络进行波形合成。然而，这些方法倾向于使用大型神经网络，需要大量的计算资源。从而发现这些网络的局部感受野是相位预测的限制因素之一，阻碍了模型参数的有效利用。本文观察到，非局部神经算子可以显著促进相位估计，导致更小的模型尺寸，同时获得更好的质量。因此，提出了一种新的基于快速傅里叶卷积(FFC)算子的神经网络结构，用于语音增强问题。Metho

2022-04-15 11:49:09 6123 1

原创 Phase-Aware Deep Speech Enhancement: It’s All About The Frame Length

[arXiv:2203.16222v1]Motivation研究发现，大多数帧长在32 ms左右的窄频带STFT方法显示相位对整体性能的影响相当有限。与此同时，基于现代深度神经网络(DNN)的方法，如Conv-TasNet，隐式地修改幅度和相位，在非常短的帧(2ms)上产生了良好的性能。基于这一观察结果，作者提出疑问：哪一帧长度对基于stft的相位感知语音增强DNN最有利，并对此进行了系统的研究。MethodA Preliminaries时域信号x(n)的STFT计算方法是将信号分割成.

2022-04-08 01:07:35 2608

原创 CMGAN: Conformer-based Metric GAN for Speech Enhancement

[arXiv:2203.15149v1]Motivation传统的技术会利用幅度分量而忽略相位。最近的方法为了更好地结合相位信息，采用了增强复数谱的策略。然而，幅度和相位之间的补偿效应常常导致幅度估计不准确。此外，SE中常用的目标函数就是估计的谱图与目标谱图之间的Lp -范数距离。然而，较低的距离并不总是导致较高的语音质量。基于此，提出了一种基于Comformer的MetricGAN (CMGAN)用于单耳语音增强。CMGAN由一个发生器和一个度量鉴别器组成。Method带噪语音波形y∈，经

2022-03-31 11:53:59 4478

原创 END-TO-END COMPLEX-VALUED MULTIDILATED CONVOLUTIONAL NEURALNETWORK FOR JOINT ACOUSTIC ECHO CANCELLA

题目：END-TO-END COMPLEX-VALUED MULTIDILATED CONVOLUTIONAL NEURAL NETWORK FOR JOINT ACOUSTIC ECHO CANCELLATION AND NOISE SUPPRESSION[arXiv:2110.00745v3]Motivation目前最近的声学回波消除(AEC)系统依赖于一个单独的自适应滤波模块用于线性回波抑制和一个神经模块用于残余回波抑制。然而，在实践中，自适应滤波模块需要时间来收敛，容易受到环境变

2022-03-25 22:21:20 2537 3

原创 FB-MSTCN: A FULL-BAND SINGLE-CHANNEL SPEECH ENHANCEMENT METHODBASED ON MULTI-SCALE TEMPORAL CONVOLU

题目：FB-MSTCN: A FULL-BAND SINGLE-CHANNEL SPEECH ENHANCEMENT METHOD BASED ON MULTI-SCALE TEMPORAL CONVOLUTIONAL NETWORK [arXiv:2203.07684v1]Motivation由于训练数据的限制和计算复杂度，全波段(48kHz)语音信号的实时增强非常具有挑战性。由于高频部分的频谱信息能量较低，导致利用神经网络对全频谱进行直接建模和增强更加困难。为了解决这一问题，本文提出

2022-03-16 18:00:32 3394

原创 MANNER: MULTI-VIEW ATTENTION NETWORK FOR NOISE ERASURE

[ICASSP2022 arXiv:2203.02181v1]Motivation目前时域方法存在同时实现高性能和高效率的困难。近年来，双路径模型被用来表示长序列特征，但在内存使用方面并不有效，因为它们在训练过程中保持了长信号长度。此外，在小通道尺寸上进行双路径处理的重复特征提取，导致表示方式有限，性能较低，记忆效率较差。在本研究中，我们提出了MANNER，由卷积编解码器和多视图注意块组成，应用于时域信号。MethodA 编码器和解码器在编码器层之前，使用一维卷积层，然后batch.

2022-03-10 15:44:13 4061

原创 SPEECH DENOISING IN THE WAVEFORM DOMAIN WITH SELF-ATTENTION

[arXiv:2202.07790v1]Motivation在以前的研究中，尽管波形方法在概念上引人注目，有时在主观评价中更受青睐，但它们在客观评价方面仍然落后于时频方法(例如，PESQ)。本文提出了一种因果语音去噪方法CleanUNet，它是在原始波形上建模。该模型基于编码器-解码器架构，结合多个自注意块来细化其瓶颈表示，这是获得良好效果的关键。该模型通过在波形和多分辨率频谱图上定义的一组损失进行优化。MethodA模型架构采用U-Net架构[27,34]。它包含一个编码器、一个解

2022-03-04 17:34:41 2467 1

原创 DENSELY CONNECTED MULTI-STAGE MODEL WITH CHANNEL WISE SUBBANDFEATURE FOR REAL-TIME SPEECH ENHANCEME

[ICASSP 2021]Motivation单通道语音增强有两个实际问题尚未得到解决。首先，很难在增强质量和计算效率之间取得平衡，而低延迟总是会带来质量的损失。其次，在特定场景下的增强，如唱歌和情感言语，也是传统方法中的一个复杂问题。本文提出了一种计算效率高的具有密集连接的多级结构的实时语音增强网络，它逐步增强了信道级的子带语音。MethodA 子带分解与重构在频域内进行子带分解，如图2所示。我们使用短时间傅里叶变换(STFT)将有噪声的波形X变换为频域上的特征。然后沿频率轴的滑动

2022-02-25 18:47:35 491 2

原创 TSTNN: TWO-STAGE TRANSFORMER BASED NEURAL NETWORK FOR SPEECH ENHANCEMENT IN THE TIME DOMAIN

[ICASSP 2021]Motivation目前，LSTM和GRU等RNN常被用于基于顺序信息的长期序列建模。但基于RNN的模型的缺点是不能并行处理，计算复杂度较高。有作者提出可以通过在编码器和解码器之间增加时间卷积网络(TCN)块或LSTM层来进一步提取高维特征实现一些改进，但语音上下文信息往往被忽略，限制了去噪性能。但变压器神经网络能够有效地解决长期依赖问题，并能很好地并行运行。受这些启发，本文提出了一种基于变压器的结构，称为两级变压器神经网络(TSTNN)，用于端到端语音时域去噪。该模型由编

2022-02-18 23:06:59 2164

原创 TIME-FREQUENCY ATTENTION FOR MONAURAL SPEECH ENHANCEMENT

[arXiv:2111.07518v2]Motivation现有的模型主要关注于如何有效地建模长时间依赖关系，而忽略了语音在T-F表示中的能量分布特征，而能量分布对于准确预测掩模或频谱具有重要意义。本文提出了一个简单而有效的T-F注意(TFA)模块，该模块生成了一个二维注意图，为T-F表示的谱分量提供了不同的权值。为了验证所提出的TFA模块的有效性，使用剩余时间卷积网络(ResTCN)作为骨干网，并在两个常用的训练目标上进行了广泛的实验。MethodA 两种训练目标以IBM作为训练目标：

2022-02-15 00:00:43 1492

原创 Temporal Convolutional Network with Frequency Dimension AdaptiveAttention for Speech Enhancement

[INTERSPEECH 2021]Motivation目前尽管取得了很多进展，但大多数基于时域卷积网络（TCN）的语音增强模型主要集中在对语音帧的长期时间背景依赖进行建模，而没有考虑到语音信号在频率维度上的分布信息。在这项研究中，我们提出了一种频率维度的自适应注意（FAA）机制来改进TCN，引导模型选择性地强调具有重要语音信息的频率维度特征，同时也提高了网络的表示能力。MethodA Training Targets我们假设短时傅里叶变换（STFT）域中的加性噪声：其中Y.

2022-02-14 22:39:01 1773

原创 TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME DOMAIN

Motivation目前研究者们开始在时域中探索深度神经网络的语音增强功能。有论文证明了全卷积神经网络对时域语音增强的有效性。也有论文训练了一种在时域中使用频域丢失的模型来提高增强语音的感知质量，但它并没有解决实时增强的问题。基于TCNN序列建模的成功实现，以及基于编码器-解码器的体系结构对时域语音增强的有效性，本文提出将两者结合，以获得一个实时增强系统。该模型具有基于编码器-解码器的体系结构，由因果卷积层组成。在编码器和解码器之间插入TCM，学习过去的长期依赖关系。MethodA 扩张因果卷.

2022-02-13 22:59:41 1593

原创 MONAURAL SPEECH ENHANCEMENT WITH COMPLEX CONVOLUTIONAL BLOCKATTENTION MODULE AND JOINT TIME

论文全称：MONAURAL SPEECH ENHANCEMENT WITH COMPLEX CONVOLUTIONAL BLOCK ATTENTION MODULE AND JOINT TIME FREQUENCY LOSSES [ICASSP 2021]Motivation深度复杂U-Net结构和卷积递归网络(CRN)结构实现了最先进的单耳语音增强性能。深度复杂U-Net和CRN都是具有skip-connection的编码器和解码器结构，它们严重依赖于复值卷积层的表示能力。因此，提出了

2022-02-12 11:42:57 1017

原创 AST: Audio Spectrogram Transformer

[NTERSPEECH 2021]Motivation（1）为了更好的获得长距离全局上下文信息作者认为AST模型可以捕获远程全局上下文，甚至在最低层。（2）CNN的分类方式不是必要的，可以简化作者认为最近的趋势是在CNN的基础上增加一个自我关注机制。这种CNN-attention混合模型在许多音频分类任务中取得了最先进的(SOTA)结果，如音频事件分类、语音命令识别和情感识别。然而，由于纯粹基于注意力的模型在视觉领域的成功，有理由质疑CNN是否仍然是音频分类的必要条件。（3）提出AS

2022-02-07 15:48:10 2549

原创 A Convolutional Recurrent Neural Network for Real-Time SpeechEnhancement

[Interspeech 2018 ]Motivation现实生活中许多语音增强的应用都需要实时处理，最好没有延迟或者低延迟，而目前的LSTM模型适用于未训练的说话人，而GRN在每个时间帧需要大量的未来信息来做mask估计或者谱映射，因此不能被使用在实时语音增强上。受最近CRN工作上的启发，作者提出了一个新的关于噪声和说话人无关的实时语音增强系统CRN架构，CRN结合了CED和LSTM。所提出的系统比LSTM有更好的客观语音可懂度和质量，而且，CRN训练参数更少。Method.

2022-01-27 17:23:53 1453

原创 WaveCRN: An Efficient Convolutional RecurrentNeural Network for End-to-end SpeechEnhancement

Motivation1、在建模时应该有效地考虑语音的局部性和时间序列特性。目前大多数端对端的语音增强模型要不然没有充分考虑语音的局部性和时间序列特性，要不然过于复杂难以实现，因此提出了一个有效的端对端语音增强模型，称WaveCRN。WaveCRN使用CNN模块和堆叠简单递归单元(SRU)模块来捕获语音位置特征，并对位置特征的时序特性进行建模。与传统的递归神经网络和LSTM不同，SRU在计算中可以高效并行化，模型参数更少。2、为了更有效地抑制带噪语音中的噪声成分，提出了一种新的受限特征掩蔽方法（RMF

2022-01-26 17:58:58 3768

原创 COMPLEX SPECTRAL MAPPING WITH A CONVOLUTIONAL RECURRENT NETWORKFOR MONAURAL SPEECH ENHANCEMENT

Motivation在语音增强中，由于相位谱图缺乏清晰的结构，通过监督式学习直接估计相位谱图似乎比较困难。CSM的目的是从噪声语音中估计出真实和虚拟的语音图，同时增强噪声语音的幅度和相位。本文提出了一种新的基于CSM的卷积递归网络(CRN) ，该网络可以实现与噪声和说话人无关的语音增强。MethodA.Convolutional recurrent network开发了CRN，将这两种拓扑结合在一起。受益于CNN的特征提取能力和RNN的时间建模能力。CRN 本质上是一种编码器-解码器架构

2022-01-22 12:14:33 1072 2

原创 Complex Spectral Mapping With Attention Based Convolution Recurrent Neural Network for Speech

Motivation传统的时频域方法主要是通过简单的递归神经网络或递归神经网络来预测TF掩码或语音频谱。最近的一些研究基于复杂频谱映射卷积递归神经网络(CRN)。这些模型直接跳过了编码器层的输出和解码器层的输入，这可能是不周到的。在此基础上，提出了一种基于注意的编解码跳跃连接机制，即基于注意的复谱映射递归神经网络(CARN)。MethodA.CARN结构编码器和解码器均由6个具有PReLU激活函数的Conv2d块组成，旨在从输入特征中提取高维特征，降低分辨率。将频谱特征作为输入。LSTM

2022-01-19 11:56:38 2423

weixin_48994423的博客