DPRNN的学习

最新推荐文章于 2023-12-24 22:46:58 发布

HaiderZhong

最新推荐文章于 2023-12-24 22:46:58 发布

阅读量2.4k

点赞数 4

文章标签：深度学习自然语言处理机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48186491/article/details/120680156

版权

可以以非常简单的方式组织任意类型的RNN层（不重要，因为我这里会换成transformer）。

优点：

1.模型更小

2.性能更好（SI-SNR）

模型组成：

首先肯定是encoder和decoder了，一个声音的信号经过编码才会得到这种L*N的形式。

1.Segmentation（分割模块）

把输入分割成重叠的块，再把所有的块连接为3-D张量。

先记住这里有一个点：K=2P（就是对应的划分好了的关系！！！！）

输入W：N*L规格的向量信息，N表示词向量维度特征，L表示时间步长。

把输入分割为一个一个小小的块，每一个块长度为K=2P，其中P为hope size，也就是说是buffer的一半。（50%）

第一个和最后一个块是用0填充的，目的在于：让输入中的所有样本都可以被处理到，而且都是在重叠的地方（头一个P和尾一个P没有数据，这样所有数据都是放在重叠区）如右图：

生成S个相同大小的块。

把S个块信息，综合起来形成了一个3-D张量——N*K(2P)*S

2.Block processing（块处理模块）

分为两个块：intra和inter。每一个模块输入和输出的矩阵维度信息都是相同的。

首先提出了b=1,…,B as 𝑇𝑏∈𝑅𝑁∗𝐾∗𝑆，其中T1=T（上面的输出？）于是重叠成了左边模块最下面的图形。进入intra进行训练，intra是双向的，并且RNN只用于𝑇𝑏的第二维。

(我明白了，所谓的the second dimension，就是除去前面的N维，这个是不变的词向量特征信息（N维向量表示一个词的特征），剩下的K和S维度，对于这两层进行处理，而K和S就分别代表了intra-chunk和inter-chunk的RNN的长度信息，表示处理的是块内的还是块间的)

在Intra里面RNN输出的信息是𝑈𝑏=[𝑓𝑏𝑇𝑏:,:,𝑖,𝑖=1,…𝑆]：

其中Ub的维度信息是H*K*S，𝑓𝑏(.)是RNN里面定义的mapping 函数（映射函数），𝑇𝑏:,:,:𝑖维度信息是N*K。

维度信息改变了，需要进行归一化和预处理。

FC：线性连接层，用来改变维度信息𝑈𝑏=[𝐺𝑈𝑏:,:,𝑖+𝑚,𝑖=1,…𝑆]：

其中G的维度信息：N*H，就是FC层内的权重分布；m维度信息：N*1，FC层内的偏置项。

LN：LayerNorm归一化层，（简单写一下公式，和BN算法是一致的，多了一个小正数𝜖，用来数值稳定的）

公式：LN𝑈𝑏=𝑈𝑏−𝜇(𝑈𝑏)𝜎𝑈𝑏+𝜖⊙z+r，基本上一模一样。

最后接上一个残差连接。就是输出𝑇𝑏。

在Inter里面RNN输出的同样也是和上面一样的，但是公式有所不同，处理的是最后一个维度的信息。

公式：𝑉𝑏=[h𝑏𝑈𝑏:,𝑖,:,𝑖=1,…𝐾]。

后面的步骤是同样的。也有残差连接，但是块间的RNN是单向的，从第一个到最后一个进行扫描。

3.Overlap-Add（重叠相加块）

𝑇B+1∈𝑅𝑁∗𝐾∗𝑆，作为块处理的结果，进入重叠相加块。把结果转换为顺序输出。

具体机理是，作用于S个块，然后形成一个 𝑄∈𝑅𝑁∗𝐿，作为结果。

参数选择：

K=2P，S=2𝐿/𝐾+1，𝐾+𝑆=𝐾+2𝐿/𝐾+1，K=2𝐿，S≈2𝐿≈𝐾。

关注

4
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
DPRNN的学习

可以以非常简单的方式组织任意类型的RNN层（不重要，因为我这里会换成transformer）。优点：1.模型更小2.性能更好（SI-SNR）模型组成：首先肯定是encoder和decoder了，一个声音的信号经过编码才会得到这种L*N的形式。1.Segmentation（分割模块）把输入分割成重叠的块，再把所有的块连接为3-D张量。先记住这里有一个点：K=2P（就是对应的划分好了的关系！！！！）输入W：N*L规格的向量信息，N表示词向量维度特征，L表示时间步长。把
复制链接

扫一扫

HaiderZhong CSDN认证博客专家 CSDN认证企业博客

码龄4年

29: 原创

22万+: 周排名

205万+: 总排名

2万+: 访问

: 等级

334: 积分

1610: 粉丝

20: 获赞

6: 评论

97: 收藏

私信

关注

热门文章

最新评论

DPTNet的学习
夜曲2021_: 至于DPTnet和sepformer的区别，sepformer中给了描述： An attempt to integrate transformers into the speech separation pipeline has been recently done in [22] where the proposed Dual-Path Transformer Network (DPTNet) is shown to outperform the standard DPRNN. Such an architecture, however, still embeds an RNN, effectively negating the parallelization capability of pure-attention models.
DPTNet的学习
夜曲2021_: overlap-add后的操作是门控机制，可以参考LuoYi的Tasnet中的Encoder获取特征表示时的操作，此门控机制参考的论文是Language modeling with gated convolutional networks
试题算法训练自行车停放
我爱派生: 好厉害呀几年还参加吗
野人传教士问题A*算法+GUI
qq_52536106: 博主你好，我运行的时候怎么报了一个0不能做除数的错？
DPTNet的学习
宅羽花花❀: B是batch吧，N还是N，L是一维卷积和激活后的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。