weixin_44223902-CSDN博客

原创 CONTINUAL SELF-TRAINING WITH BOOTSTRAPPED REMIXING FOR SPEECH ENHANCEMENT

题目：CONTINUAL SELF-TRAINING WITH BOOTSTRAPPED REMIXING FOR SPEECH ENHANCEMENT时间：2021.10作者：Efthymios Tzinis1,∗, Yossi Adi2, Vamsi K. Ithapu3, Buye Xu3, Anurag Kumar3机构：University of Illinois at Urbana-Champaign, 2Facebook AI Research, 3Facebook Reality La

2021-12-23 20:22:46 1730 1

原创声纹识别

声纹识别在一个时间序列中，如何把弱信息提取出来频谱特征中声纹信息和音素信息是否混合在一起的？利用音素的信息来指导做一个软对齐来做一个x-vectorY是说话人模型，I关系矩阵是隐变量。忽略了embeding和周围节点之间的拓扑关系...

2020-11-23 17:28:07 263

原创 Deep Embedding Learning for Text-Dependent Speaker Verification

Deep Embedding Learning for Text-Dependent Speaker Verification作者：Peng Zhang, Peng Hu, Xueliang ZhangINTERSPEECH 2020October 25–29, 2020, Shanghai, China解决的问题为说话人验证提出了一种有效的深度嵌入学习架构。创新点相比于ResNet和TDNN，我们做了俩点改进使用全连接网络编码说话人的短时文本信息提出使用双向注意力池化机制建模长时文本信

2020-11-23 15:43:52 308

原创 TRAINING SUPERVISED SPEECH SEPARATION SYSTEM TO IMPROVE STOI AND PESQ DIRECTLY

TRAINING SUPERVISED SPEECH SEPARATION SYSTEM TO IMPROVE STOI AND PESQ DIRECTLY解决的问题：提出使用梯度近似的方法来计算STOI和PESQ

2020-11-22 14:37:24 232

原创有监督的语音分离系统

监督性语音分离分为以下五步：时频分解：利用信号处理方法（短时傅里叶变换或者听觉滤波器组）把输入的时域信号分解为二维的时频信号表示特征提取：提取帧级别或者时频单元级别的声学特征分离目标：常用的语音分离目标主要分为时频掩蔽的目标、目标语音幅度谱估计的目标和隐式时频掩蔽目标模型训练：, 利用大量的输入输出训练对通过机器学习算法学习一个从带噪特征到分离目标的映射函数,波形合成：利用估计的分离目标以及混合信号, 通过逆变换，(逆傅里叶变换或者逆 Gammatone 滤波) 获得目标语音的波形信号..

2020-11-22 11:20:13 383

原创端到端的语音识别建模

端到端语音识别的输入和输出输入：主流的输入特征是fbank.一些论文中也用MFCC以及raw waveform.fbank特征的处理过程一般是对一段语音进行进行预加重、分帧、加窗、短时傅里叶变换、mel滤波、去均值等。一个fbank向量往往对应10ms的语音。输出：可以是字母，子词，词等等，目前以子词（subword)当作输出比较流行。...

2020-11-21 17:53:07 483

原创 On Convolutional LSTM Modeling for Joint Wake-Word Detection and Text Dependent Speaker Verification

On Convolutional LSTM Modeling for Joint Wake-Word Detection and Text Dependent Speaker Verification作者：Rajath Kumar1, Vaishnavi Yeruva2, Sriram Ganapathy2解决的问题将个性化关键字检测和依赖文本的的说话人识别使用卷积长短时记忆网络模型结合在一个系统中，初始的卷积特征映射由LMST循环网络进一步处理数据集使用WSJ和 LibriSpeech co

2020-11-20 15:52:13 162

原创 A Regression Approach to Speech Enhancement Based on Deep Neural Networks

A Regression Approach to Speech Enhancement Based on Deep Neural Networks题目：A Regression Approach to Speech EnhancementBased on Deep Neural Networks作者：Yong Xu, Jun Du, Li-Rong Dai, and Chin-Hui Lee,github:解决的问题提出了一种有监督的语音增强，通过找到一个基于DNN 的噪声和干净语音之间的映射

2020-11-20 12:14:23 663

原创 Learning Complex Spectral Mapping with Gated Convolutional Recurrent Networks for Monaural Speech En

Learning Complex Spectral Mapping with Gated Convolutional Recurrent Networks for Monaural Speech Enhancementabstract相位对于语音质量很重要，然而，通过监督学习直接估计相位很难，由于缺少时间谱结构。复数谱映射的目标是从噪音中估计干净语音的实部和虚部。同时提高语音的幅度和相位相应。受多任务学习的启发，我们为复数谱映射提出了一个门控卷积循环神经网络，为单通道语音增强构成因果系统。实验结果表明

2020-11-19 21:25:20 457

原创关键字唤醒

关键字唤醒一、将预训练的语音增强模型和关键字检测模型连接起来形成一个复杂的系统，整个模型使用联合训练的方法，关键字检测系统包含的语言学信息可以通过反向传播的方法传递给增强模型。二、采用基于联合训练框架的CNN-MelCRN32三、设计了特征转换模块，将输入特征从能量谱转换为梅尔谱，有效的减少了计算量基于端到端的关键词检测系统：将待识别的语音直接输入模型，输出是待识别的关键字或非关键字，模型通常包括三个部分：特征提取模块，神经网络模块和输出后验得分的计算模块。识别阶段，关键字检测系统首先对输入语音按

2020-11-15 11:19:11 894

原创 A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement

A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement文章：A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement作者：Ke Tan, DeLiang Wanggithub:ABSTRACT现实生活中许多语音增强的应用都需要实时处理，没有或者低延迟，例如助听器和人工耳蜗。本文提出了CRN解决单通道语音增强。我们把CE

2020-11-14 21:57:33 1790