自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 DTW应用之关键词检测

热词检测(Hotword Detection)是一种语音识别技术,用于检测特定的短语或单词,例如“Hey Siri”、“OK Google”、“Alexa"等,以触发相应的语音助手或应用程序。计算训练语音特征和测试语音特征之间的相似性,即分别计算DTW距离,找到最小的DTW距离并对比阈值得出结果。

2024-03-25 22:06:07 213

原创 VITS整体结构介绍

提出了一种并行端到端 TTS 方法,该方法可生成比当前两阶段模型更自然的音频。

2024-03-25 12:00:21 1074

原创 DTW(动态时间调整)算法原理

用于解决同一句话但说话速度不同的识别问题

2024-03-21 23:19:49 540 1

原创 三种生成模型(GAN、VAE、FLOW)

生成模型:从简单分布中随机采样一个z,进过生成器G后生成一个复杂样本X的过程。

2024-03-21 16:02:27 500 1

原创 小结一下参加的BirdCLEF 2023鸟声识别比赛

深度学习鸟声识别任务代码

2023-10-04 16:34:39 458 3

原创 麦克风阵列语音增强算法——固定波束形成算法

固定波束形成算法

2023-03-06 21:26:48 1223

原创 论文阅读:DPCRN: Dual-Path Convolution Recurrent Network for Single ChannelSpeech Enhancement

将 DPRNN 模块与卷积递归网络 (CRN) 相结合,设计了一种称为双路径卷积递归网络 (DPCRN) 的模型,用于时频域中的语音增强

2023-01-12 21:40:54 1277 3

原创 DTLN网络模型学习

本文提出的模型级联两个分离核,使用第一个内核创建稳健的幅度估计,并使第二个内核能够进一步增强具有相位信息的信号。

2022-12-20 17:19:09 600

原创 论文阅读:FLGCNN: A novel fully convolutional neural network for end-to-endmonaural speech enhancement

本文提出了一种称为 FLGCNN 的新型全卷积神经网络 (FCN),以解决时域中的端到端语音增强问题。所提出的 FLGCNN 主要建立在编码器和解码器之上,同时添加了额外的基于卷积的短时傅立叶变换 (CSTFT) 层和逆 STFT (CISTFT) 层来模拟正向和逆向 STFT 操作。这些层旨在将频域知识集成到所提出的模型中,因为语音的基础语音信息通过时频 (T-F) 表示更清楚地呈现。此外,编码器和解码器由门控卷积层构成,因此所提出的模型可以更好地控制层次结构中传递的信息。

2022-12-18 21:21:57 548 1

原创 论文阅读:GCRN:Learning Complex Spectral Mapping With GatedConvolutional Recurrent Networks forMonaural

使用门控卷积递归网络学习复杂频谱映射以增强单声道语音

2022-12-05 22:23:08 1092

原创 论文阅读:DARCN网络(个人理解)

对于连续的语音处理,动态注意有助于优先处理,因此,我们提出了一个将动态注意力和递归学习结合在一起的框架,称为 DARCN,用于单声道语音增强。

2022-11-23 17:18:15 156

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除