语音
文章平均质量分 60
W_Ria
学习ing
展开
-
jupyter notebook&& jupyter lab
目录1.jupyter notebook2.jupyter lab1.jupyter notebookconda install jupyter notebookconda install nb_conda创建虚拟环境并进入,然后i继续:pip install ipykernel #预安装 ipykernel 包# 将tensorflow环境作为 kernel 初始化,并命名为. 这个环境添加到了ipython的kernel中python -m ipykernel.原创 2021-04-13 15:55:29 · 303 阅读 · 0 评论 -
KL散度-多元分布到一元情况 && 标准正态分布KL-VAEloss部分
KL散度KL散度:多元分布到一元对于各分量相互独立的多元分布: KL散度可以分解为边缘分布的KL散度之和: 所以,我们把注意力集中在一维分布间KL散度的计算上。正态分布贝叶斯神经网络中,正态分布常用作变分分布和先验分布。KL散度为:详细推导-VAE中的例子两个多变量高斯分布之间的KL散度是变分自编码中损失函数推导的重要步骤结果的第一项: ...原创 2021-03-26 12:39:33 · 2916 阅读 · 1 评论 -
2021-03-12/15/18实验记录
1.importlib.import_module()动态导入对象,动态导入模块,导入当前包下的preprocessor_name(vctk.py)模块.Preprocessor2.functools.partial()https://www.cnblogs.com/wxys/p/13756552.html3.pool.imap是Python的进程池的一种调用方法多进程模式最大的优点就是稳定性高,因为每个进程独立拥有自己的调度资源,一个Worker的崩.原创 2021-03-18 16:10:53 · 180 阅读 · 0 评论 -
cotatron 中构造的特征_笔记
1)预训练TTS系统,即tacotron2时,根据decoder hidden state 和encoder output,即根据目标隐状态-绿色的和每个源状态-蓝色实心的,“相比”,以生成注意力权重(attention weights)矩阵也称为对齐(alignments)根据注意力权重,可以计算上下文向量作为源状态的加权平均。2)可以使用不同的score函数:基于内容的注意力机制能够将不同的输出与相应的输入元素连接,而与其位置无关。在Tacotron2中使用基...原创 2021-03-12 17:50:45 · 191 阅读 · 0 评论 -
2021-03-10/11实验记录
1.TypeError: cat() got an unexpected keyword argument 'axis'提高pytorch的版本至1.2.0以上2.RuntimeError: Input type (torch.cuda.DoubleTensor) and weight type (torch.cuda.FloatTensor) should be the same1)CUDA和CPU,输入数据x和模型中的权重值类型不一样,一般来说是因为模型的参数不在GPU中,而原创 2021-03-12 17:20:53 · 176 阅读 · 0 评论 -
2021-03-08操作记录
1.OMP: Warning #190: Forking a process while a parallel region is active is potentially unsafe.可能问题:同时使用多个dataloader时,有时候会出现这个警告,同时cpu占用率飙升。解决方案:将DataLoader初始化参数中的pin_memory设为False,问题解决。参考链接原文链接:https://blog.csdn.net/zhjadsf/article/details/82983083原创 2021-03-10 09:26:58 · 2658 阅读 · 0 评论 -
BatchNorm, LayerNorm, InstanceNorm和GroupNorm
简介这一篇介绍四种Norm的方式. 之前我们介绍过BatchNorm的方法,Batch Normalization技术介绍. 这一篇会将BatchNorm, LayerNorm, InstanceNorm和GroupNorm这四种Normailzation的技术一起进行比较和说明.参考资料Pytorch Normalization Layers(官方文档使用说明): Normalization layers Pytorch Normalization中文介绍:ytorch常用normali..转载 2021-01-09 12:28:06 · 826 阅读 · 0 评论 -
2020-12-14音频笔记
1.scipy.io.wavfile.read()!!!This function cannot read wav files with 24-bit data.Common data types: [1] WAV format Min Max NumPy dtype 32-bit floating-point -1.0 +1.0 f...原创 2020-12-14 20:00:41 · 564 阅读 · 1 评论 -
GN,Interpolate, Sampler,DataLoader, DataSet(Pytorch)
1 GNFace book AI research(FAIR)吴育昕-何恺明联合推出重磅新作Group Normalization(GN),GN解决了BN式归一化对batch size依赖的影响。BN全名是Batch Normalization,见名知意,其是一种归一化方式,而且是以batch的维度做归一化,那么问题就来了,此归一化方式对batch是independent的,过小的batch size会导致其性能下降,一般来说每GPU上batch设为32最合适;但是对于一些其他深度学习任务bat原创 2020-11-22 18:59:36 · 260 阅读 · 0 评论 -
tf.slim以及其他
https://www.cnblogs.com/monologuesmw/p/12627697.htmlhttps://www.cnblogs.com/elitphil/p/12009990.htmlhttps://zhuanlan.zhihu.com/p/129254863原创 2020-11-08 16:44:09 · 124 阅读 · 0 评论 -
神经网络可视化部分认识
1 基于ONNXOpen Neural Network Exchange(ONNX,开放神经网络交换)格式,是一个用于表示深度学习模型的标准,可使模型在不同框架之间进行转移。https://www.jianshu.com/p/65cfb475584aCaffe2,PyTorch,Microsoft Cognitive Toolkit,Apache MXNet等主流框架都对ONNX有着不同程度的支持。这就便于了我们的算法及模型在不同的框架之间的迁移。ONNX是一个开放式规范,由以下组件组成:原创 2020-11-05 21:15:54 · 224 阅读 · 0 评论 -
tensorflow部分认识
Tf就像是一个动作构成的树,就像太极拳一样,你必须从一个动作开始添加动作,并形成一套动作,这些动作的组合形成一个运算的步骤,这一点跟面对过程语言很像,不过它是实际上创建图并围绕图运作的。Tf就是一个计算模型,你根据数据(比如在平面上给出一些点的坐标)和推导建模(比如假设用n次幂的线分割),建模完成后选择优化方法(所有的优化方法都已经提供,只需要选择相应的优化函数),在建模的时候,为了TF可以对后续的计算进行优化,并行等目的,所有的op都要用tf提供的op(比如tf.sub而不是“-”)通常工作步骤:..原创 2020-11-04 20:21:52 · 113 阅读 · 0 评论 -
音频文件基本处理流程
https://www.cnblogs.com/us-wjz/articles/11578280.html原创 2020-11-02 20:04:30 · 593 阅读 · 0 评论 -
先验概率、似然函数与后验概率
先验概率、似然函数与后验概率先验概率Prior probability在贝叶斯统计中,先验概率分布,即关于某个变量 p 的概率分布,是在获得某些信息或者依据前,对 p 的不确定性进行猜测。例如, p 可以是抢火车票开始时,抢到某一车次的概率。这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量。先验概率仅仅依赖于主观上...转载 2020-05-03 19:33:34 · 2218 阅读 · 0 评论 -
One-shot VC by Separating Speaker and Content Representations with Instance Normalization阅读
会议:2019 interspeech单位:国立台湾大学作者:Ju-chieh Chou, Hung-yi Lee过往有许多关于音色转换的研究主要集中在并行语料集的基础上的,已经能够实现将一种的音色转换成其多种其他人音色(例如讯飞留声,百度地图个性化声音导航等),而且效果比较不错。但是这种方案有明显的缺陷,包括:(1)训练数据要求较严格(并行数据)。(2)只能转换处于训练集内的人的音色。基...原创 2020-04-03 18:20:07 · 1055 阅读 · 2 评论 -
感受野 ConvBank
ConvBank,用于扩大感受野,抓取长时信息感受野是卷积神经网络里面最重要的概念之一,为了更好地理解卷积神经网络结构,甚至自己设计卷积神经网络,对于感受野的理解必不可少。感受野被定义为卷积神经网络特征所能看到输入图像的区域,换句话说特征输出受感受野区域内的像素点的影响。pooling为什么可以提高感受野呢?第一个作用是降低feature map的尺寸...原创 2020-04-03 10:52:49 · 763 阅读 · 0 评论 -
KL散度 L2正则 粗略理解
信息熵可以表达数据的信息量大小;相对熵,又被称为KL散度或信息散度,是两个概率分布间差异的非对称性度量在信息论中,相对熵等价于两个概率分布的信息熵的差值,若其中一个概率分布为真实分布,另一个为理论(拟合)分布,则此时相对熵等于交叉熵与真实分布的信息熵之差,表示使用理论分布拟合真实分布时产生的信息损耗因此该公式的字面上含义就是真实事件的信息熵与理论拟合的事件的香农信息量与真实...原创 2020-04-03 09:50:05 · 3284 阅读 · 0 评论 -
VAE粗略理解
AE自编码是一种表示学习的技术,是deep learning的核心问题让输入等于输出,取中间的一层作为embedding, 即编码对中间的隐层进行约束,就可以得到不同类型的编码h<x,这就是普通的降维编码h>x, 并且约束其稀疏性,就得到稀疏编码自编码网络,可以理解为,完成训练后,Decoder部分就没有用了SAE堆叠自编码器...原创 2020-04-03 09:20:47 · 3174 阅读 · 1 评论 -
GAN
https://www.cnblogs.com/fydeblog/p/9439024.html转载 2019-12-06 13:18:54 · 131 阅读 · 0 评论 -
GAN,CycleGAN,starGAN,CycleGAN-VC,starGAN-VC
GANGAN 有两个网络,一个是 generator,一个是 discriminator,通过两个网络互相对抗来达到最好的生成效果。公式:先固定 G,来求解最优的 D对于一个给定的 x,得到最优的 D 如上图,范围在 (0,1) 内,把最优的 D 带入可以得到JS divergence 是 KL divergence 的对称平滑版本,表示了两个分布之间...原创 2019-12-04 19:18:50 · 3637 阅读 · 0 评论 -
论文阅读A postfilter to modify the modulation spectrum in HMM-based speech synthesis
A postfilter to modify the modulation spectrum in HMM-based speech synthesis本文提出了一种后滤波方法来补偿调制频谱。在基于hmm的语音合成中,过度平滑是导致语音质量下降的主要原因,为了缓解过度平滑的影响,有必要考虑能够捕获过度平滑的特征。全局方差(Global Variance, GV)就是这种特征的一个很好的例子...原创 2019-12-04 18:43:49 · 344 阅读 · 0 评论 -
python matploblib plot画图报错
当数据量很大的时候,使用matplotlib.pylab画图,有时会报如下错误:OverflowError: In draw_path: Exceeded cell block limit解决方案是加入如下代码,或者设置比10000更大的值import matplotlib as mplmpl.rcParams['agg.path.chunksize'] = 10000-----...转载 2019-05-12 09:39:21 · 2798 阅读 · 0 评论 -
谱减法语音降噪的Python实现
转载出处:https://blog.csdn.net/iTaacy/article/details/60141849效果:谱减法语音降噪的Python实现:#!/usr/bin/env pythonimport numpy as npimport waveimport nextpow2import math# 打开WAV文档f = wave.open("inp...转载 2019-05-12 09:19:23 · 2441 阅读 · 1 评论