语音分离简单的频域介绍方法

最新推荐文章于 2023-05-16 23:11:21 发布

HaiderZhong

最新推荐文章于 2023-05-16 23:11:21 发布

阅读量386

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48186491/article/details/120680249

版权

频域的解决方法，使用特征提取器代替STFT直接建立有用的数据，再在分离结束时，用还原器，还原成声音的信息。

基于Masking的解决方案：

通过对mask的分离综合审判，得到两个矩阵向量，然后分别用矩阵向量和原始的混合与一个矩阵信息，想乘，得到了两个分离的纯净的信息。

说明一下：这里的M1和M2可以分别是binary（0/1）或者是连续值（continuous）

IBM：Ideal Binary Mask

针对上面的掩模信息，做的一个想法。

通过比较，在矩阵中的每一个格内比较红和蓝，哪一个出现的可能性更大，比较大的就是1，比较小的就是0。

相乘之后，就是干净的语音信息。

但是问题有2：

1.没有这么容易可以得到IBM的。（下面便是得到IBM的一种方法）

2.得到了也会有PI问题！！！

Deep Clustering Inference

主要是有两个部分组成：Embedding Generation和K-means Clustering。

通过Embedding Generation，把信号矩阵扩展为一个立方体的模样，这样可以包含更多的信息，更加精准度分离。

再通过K-means Clustering聚类，分为K=2的两群，最终产生IBM。

后人对于这两个部分都提出了可以训练的方法。

下面便是Embedding Generation的训练方法

Deep Clustering Training：

首先，因为在训练集里，我们可以根据 Mixed matrⅸx找到它的 Ideal Binary Mask

之后，假设在找到 Ideal Binary Mask后，我们发现第一排第二三列的值不同1和0

然后，根据Mask的第一排第二三列的不同，表示 Mixed matrⅸ中的第一排第二三列的 Speake不同

最终，我们只需训练 Embedding Generation使得生成的对应位置的 vector的距离越大越好。同理，

对于Mask值相同的，我们训练 Embedding Generation得到的 vector的距离越小越好。

怎么理解这个距离越远就分开了呢？

因为我们到后面做的事一个聚类分析，K-means Clustering，如果两个点之间的举例越来越远，那么聚类分析的时候，就会把这两个的相连性，分隔开，就成为了连个不同的mask模值

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
语音分离简单的频域介绍方法

频域的解决方法，使用特征提取器代替STFT直接建立有用的数据，再在分离结束时，用还原器，还原成声音的信息。基于Masking的解决方案：通过对mask的分离综合审判，得到两个矩阵向量，然后分别用矩阵向量和原始的混合与一个矩阵信息，想乘，得到了两个分离的纯净的信息。说明一下：这里的M1和M2可以分别是binary（0/1）或者是连续值（continuous）IBM：Ideal Binary Mask针对上面的掩模信息，做的一个想法。通过比较，在矩阵中的每一个格内比较红和蓝，
复制链接

扫一扫

HaiderZhong CSDN认证博客专家 CSDN认证企业博客

码龄4年

29: 原创

30万+: 周排名

40万+: 总排名

2万+: 访问

: 等级

332: 积分

1562: 粉丝

18: 获赞

6: 评论

96: 收藏

私信

关注

热门文章

最新评论

DPTNet的学习
夜曲2021_: 至于DPTnet和sepformer的区别，sepformer中给了描述： An attempt to integrate transformers into the speech separation pipeline has been recently done in [22] where the proposed Dual-Path Transformer Network (DPTNet) is shown to outperform the standard DPRNN. Such an architecture, however, still embeds an RNN, effectively negating the parallelization capability of pure-attention models.
DPTNet的学习
夜曲2021_: overlap-add后的操作是门控机制，可以参考LuoYi的Tasnet中的Encoder获取特征表示时的操作，此门控机制参考的论文是Language modeling with gated convolutional networks
试题算法训练自行车停放
我爱派生: 好厉害呀几年还参加吗
野人传教士问题A*算法+GUI
qq_52536106: 博主你好，我运行的时候怎么报了一个0不能做除数的错？
DPTNet的学习
宅羽花花❀: B是batch吧，N还是N，L是一维卷积和激活后的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。