MulCat DPRNN的学习

总体网络结构:

同时优化分离和说话人识别两个目标实现更好的说话人分离,此外该网络能够实现5-6人的分离,因此该网络是一个很好的设计。

用了新的网络的RNN构架方法;

不使用mask掩码,提出新的loss计算方法。

模型总体介绍:

这个模型主要借鉴了罗艺的DPRNN的架构方式,运用了encoder,separator,decoder的架构方式。

编码器encoder

输入:x∈ℝ𝑇,代表混合语音的信号,T不是固定的数值。

经过一维卷积网络E(参数:kernel size:L,stride:L/2),卷积网络之后跟着ReLU非线性激活函数。然后得到输出。

输出:𝑧=𝐸x,其中𝑧∈ℝ𝑁×𝑇′,其中𝑇′=2TL−1

Chunking:

把编码器的输入分割成块。(与DPRNN相似)

其中𝑅=2𝑇′/K+1,其中每一个块的长度变成了K,并且hopsize=P。

经过分块后,𝑢𝑟∈ℝ𝑁×𝐾,r∈[1,…,R]。合并之后就是𝑣=𝑢1,…,𝑢𝑅∈ℝ𝑁×𝐾×𝑅

分离概括:

在原始的DPRNN中,有b个RNN模块

分离模块MulCatBlock

把之前的处理好的块组合v放入到分离模块中。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值