总体网络结构:
同时优化分离和说话人识别两个目标实现更好的说话人分离,此外该网络能够实现5-6人的分离,因此该网络是一个很好的设计。
用了新的网络的RNN构架方法;
不使用mask掩码,提出新的loss计算方法。
模型总体介绍:
这个模型主要借鉴了罗艺的DPRNN的架构方式,运用了encoder,separator,decoder的架构方式。
编码器encoder:
输入:x∈ℝ𝑇,代表混合语音的信号,T不是固定的数值。
经过一维卷积网络E(参数:kernel size:L,stride:L/2),卷积网络之后跟着ReLU非线性激活函数。然后得到输出。
输出:𝑧=𝐸x,其中𝑧∈ℝ𝑁×𝑇′,其中𝑇′=2TL−1
Chunking:
把编码器的输入分割成块。(与DPRNN相似)
其中𝑅=2𝑇′/K+1,其中每一个块的长度变成了K,并且hopsize=P。
经过分块后,𝑢𝑟∈ℝ𝑁×𝐾,r∈[1,…,R]。合并之后就是𝑣=𝑢1,…,𝑢𝑅∈ℝ𝑁×𝐾×𝑅
分离概括:
在原始的DPRNN中,有b个RNN模块
分离模块MulCatBlock:
把之前的处理好的块组合v放入到分离模块中。