关于VCTK数据集

  1. 下载vctk数据集(下载路径:https://datashare.ed.ac.uk/download/DS_10283_3443.zip),下载后根据说话人分文件夹放置截图(110个人):
  2. vctk数据集理解:
    1. CSTR VCTK语料库包括110名英语使用者使用不同口音发出的语音数据。每个演讲者朗读大约400个句子,这些句子选自一份报纸、rainbow文章和一段用于语音重音档案的启发段落。
    2. 文本是根据贪婪算法选择的,贪婪算法可以增加上下文和语音覆盖率。
    3. 所有语音数据均使用相同的录音设置进行录音:一个全向麦克风(DPA 4035)和一个小振膜电容麦克风,带宽非常宽(Sennheiser MKH 800),采样频率为96kHz,24位,位于爱丁堡大学的半消声室中。
    4. 所有记录均转换为16位,降采样至48 kHz
    5. 该语料库最初用于基于HMM的文本到语音合成系统,尤其是基于说话人自适应HMM的语音合成,该合成使用多个说话人的平均语音模型和说话人自适应技术。该语料库也适用于基于DNN的多说话人文语合成系统和波形建模。**这里的思想和PCA提取人脸特征加上平均人脸来合成指定人脸的思想类似**
  3. VCTK语料库有几种变体:
    1. 语音增强:用于训练语音增强算法和TTS模型的噪声语音数据库,音频被人为地向VCTK添加了各种类型的噪声:http://dx.doi.org/10.7488/ds/2117
    2. 混响语音数据库,用于训练语音去混响算法和TTS模型,VCTK中人为添加了各种类型的混响http://dx.doi.org/10.7488/ds/1425
    3. 用于训练语音增强算法和TTS模型的噪声混响语音数据库http://dx.doi.org/10.7488/ds/2139
    4. 设备记录VCTK,其中VCTK语料库的语音信号被回放,并使用相对便宜的消费设备在办公环境中重新记录http://dx.doi.org/10.7488/ds/2316
    5. Microsoft可伸缩噪声语音数据集(MS-SNSD)https://github.com/microsoft/MS-SNSD
    6. ASV和反欺骗:
      1. 欺骗和反欺骗(SAS)语料库,是由九种技术产生的合成语音信号的集合,其中两种是语音合成,七种是语音转换。所有这些都是使用VCTK语料库构建的。http://dx.doi.org/10.7488/ds/252
      2. 自动说话人验证欺骗和对策挑战(ASVspoof 2015)数据库。该数据库由十种技术产生的合成语音信号组成,已用于第一次自动说话人验证欺骗和对抗挑战(ASVspoof 2015)http://dx.doi.org/10.7488/ds/298
      3. ASVspoof 2019:第三个自动说话人验证欺骗和对策挑战数据库。该数据库已用于第三次自动说话人验证欺骗和对策挑战(ASVspoof 2019)https://doi.org/10.7488/ds/2555
      4. 使用语料库需要增加的引用:
        Christophe Veaux,  Junichi Yamagishi, Kirsten MacDonald, "CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit",   The Centre for Speech Technology Research (CSTR), University of Edinbur

 

  • 8
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 19
    评论
CSTR语音克隆英语多说话人语料库工具包 概述 这个CSTR VCTK语料库包含了109个以不同口音为母语的英语使用者的语音数据。 每位演讲者要朗读大约400句句子,其中大部分是从报纸上挑选出来的,再加上彩虹段落和一段旨在识别演讲者口音的启事段落。 这些报纸文本是在先驱时报集团(Herald & Times Group)的许可下,从格拉斯哥的《先驱报》(The Herald)上摘取的。 每位演讲者阅读一组不同的报纸句子,每组句子都是通过贪婪算法选择的,该算法旨在最大限度地扩大上下文和语音覆盖范围。 彩虹段落和启发性段落对所有演讲者都是一样的。 彩虹之旅可以在国际英语方言档案(http://web.ku.edu/~idea/readings/rainbow.htm)中找到。 引出段落与用于语音重音存档(http://accent.gmu.edu)的段落相同。 语音口音档案的细节可以在http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf上找到 所有的语音数据都是使用相同的录音设置记录的:一个全向头戴式麦克风(DPA 4035),采样频率为96kHz, 24位,在爱丁堡大学的半暗室中。 所有录音均转换为16位,基于STPK下采样至48 kHz,并手动端点。 该语料库的录制是为了构建基于hmm的文本-语音合成系统,特别是用于使用多个发言者训练的平均语音模型和发言者自适应技术构建基于发言者自适应的语音合成系统。 复制 该语料库是在开放数据共享署名许可(ODC-By) v1.0下授权的。 http://opendatacommons.org/licenses/by/1.0/ http://opendatacommons.org/licenses/by/summary/ 下载 http://dx.doi.org/10.7488/ds/1994 确认 CSTR VCTK语料库由: Christophe Veaux(爱丁堡大学) Junichi Yamagishi(爱丁堡大学) 克里斯汀•麦克唐纳 导致这些结果的研究部分得到了EPSRC EP/I031022/1 (NST)和EP/J002526/1 (CAF)的资助,来自RSE-NSFC的资助(61111130120)和JST CREST (uDialogue)的资助。
引用中提到了一种语音增强模型DPTPM,其中使用了窗长和窗移分别为25ms和6.25ms的短时傅里叶变换(STFT),FFT长度为512。通道数C设置为64,编码器和解码器中的卷积操作后都会使用层归一化和PReLU。DPTPM中的卷积层后使用PReLU。dense block包含4个膨胀卷积层,膨胀系数d为2,输入特征的通道数分别为C,2C,3C和4C,输出通道数为C。 引用中介绍了DPTPM的结构,包含两个1x1卷积层、B个双路径变换器(DPTs)和一个门控1x1卷积层。在输入到DPTs之前,使用一个1x1卷积层将通道数减半,即DPTs的输入表示为D ∈ R C ′ × T × F。每个DPT包含一个内部变换器和一个跨通道变换器,前者对子带信息进行建模,后者对全带信息进行建模。与之前的方法不同,DPT交替处理时间和频率路径,而不是并行处理。 引用提到了PercepNet,这是一个非官方的实时增强全频带语音的感知动机方法。该方法使用梳状滤波器进行基音估计,并结合了干净的语音和噪声数据进行训练。其中使用了VCTK 48k WAV作为干净的语音数据集,DEMAND 48k WAV作为噪声数据集。 关于VCTK-DEMAND,它是用于语音增强的两个数据集的名称。VCTK是一个包含人类发音的数据集,而DEMAND是一个包含各种噪声的数据集。在语音增强任务中,常常使用VCTK数据集中的干净语音与DEMAND数据集中的噪声进行训练和评测。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 19
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值