自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 音频的预处理

1分帧语音信号为短时平稳信号,取一小段可以看做是平稳的所以要加窗,并且相邻两帧之间有一部分重叠原因是:语音信号是时变的,在短时范围内特征变化较小,所以作为稳态来处理;但超出这短时范围语音信号就有变化了。在相邻两帧之间基音发生了变化,如正好是两个音节之间, 或正好是声母向韵母过渡,等等,这时,其特征参数有可能变化较大,但为了使特征参数平滑地变化,在两个不重叠的帧之间插一些帧来提取特征参数,这就形成了相邻帧之间有重叠部分,傅里叶变换要求输入的信号是平稳的。总帧数=audio_length//hop_le

2021-02-25 23:03:09 1670 3

原创 pytorch中的一些函数

pytorch中的一些函数:1.储存模型的一些函数model.parameters()与model.state_dict()是Pytorch中用于查看网络参数的方法。一般来说,前者多见于优化器的初始化,例如:后者多见于模型的保存,如:2.torch.nn.util.rnn.pad_sequence()参考:https://www.cnblogs.com/yuqinyuqin/p/14100967.html3.hdf5storage.savemat地址:https://

2021-02-22 02:30:19 290

原创 如何数四维矩阵

如何数四维矩阵,如下是一个四位矩阵,形状为(4,3,2,5)tensor([[[[-0.3037, 0.5017, 0.2698, 0.7181, 0.7317], [ 0.2041, -2.1096, 2.0244, -2.0167, -0.4281]], [[ 0.0483, 0.0486, -0.9498, -0.1509, -0.9814], [-0.0850, -0.8587, 1.4044, 0.6037, -...

2021-02-21 01:07:17 3098

原创 跑代码的一些记录

在服务器和本地跑代码容易出现路径的问题,常常由于本地设置好针对于本地的路径在服务器上报错,而一个代码常常需要很多地方填写路径,特别需要注意路径的变化。一般训练的时候由音频生成json文件,好处是训练的音频不需要一个个的列表填写上去,运行代码的时候遇到了报错,想到是否版本的问题,果然降了版本可以解决。跑代码一般需:配置环境,注意有些安装包的版本是否匹配问题;数据集的路径配置;只要代码不坑一般都能跑通,还有的代码可以运行但是loss降不下来效果很不好也不能用...

2021-02-18 21:30:48 299

原创 基于深层声学特征的端到端语音分离

这是发表在计算机系统应用的2019的期刊概述传统的声学提取特征方法需要经过傅里叶变换等操作,这会造成语音能量损失和时间上的延时,为了改善问题,提出了端到端。文章结构这篇文章的写作思路很值得借鉴,尤其用了大量对比,有助于论文的构想。首先给出了语音分离的概念:指多个说话人的混合语音中分离得到想要的语音数据,源于著名的鸡尾酒会问题。本文主要研究两个说话人混合的情况。 鸡尾酒会问题:指人的一种听力选择能力,注意力集中在某个人的谈话之中而忽略背景中其他的对话或噪音,揭示了人类听觉系统中令人惊奇的能力,即我

2020-05-28 22:04:48 504

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除