论文翻译:2021_Towards model compression for deep learning based speech enhancement

Python微信订餐小程序课程视频

https://edu.csdn.net/course/detail/36074

Python实战量化交易理财系统

https://edu.csdn.net/course/detail/35475

目录

摘要1  引言2  算法描述A  基于DNN的语音增强B  迭代非结构化和结构化剪枝C  稀疏正则化D  基于聚类的量化3  实验步骤A  数据处理B  语音增强模型C  训练细节和敏感性分析配置4  实验结果及分析A  压缩管道的评估B  稀疏正则化和迭代剪枝的效果C  基于聚类的量化效应D  语音分离评估5  结论感谢参考文献

论文地址:面向基于深度学习的语音增强模型压缩

论文代码:没开源,鼓励大家去向作者要呀,作者是中国人,在语音增强领域 深耕多年

引用格式:Tan K, Wang D L. Towards model compression for deep learning based speech enhancement[J]. IEEE/ACM transactions on audio, speech, and language processing, 2021, 29: 1785-1794.

摘要

在过去的十年里,深度神经网络(DNNs)的使用极大地提高了语音增强的性能。然而,要实现较强的增强性能通常需要较大的DNN,而DNN既消耗内存又消耗计算量,这使得这种语音增强系统很难部署在硬件资源有限的设备或延迟要求严格的应用程序上。在本研究中,我们提出了两个压缩方法来减小基于DNN的语音增强模型的size,其中包含了三种不同的技术:稀疏正则化、迭代剪枝和基于聚类的量化。我们系统地研究了这些技术,并评估了建议的压缩方法。实验结果表明,我们的方法在不显著牺牲增强性能的前提下,大大减小了四个不同模型的尺寸。此外,我们发现所提出的方法对说话人分离有很好的效果,进一步证明了该方法对语音分离模型压缩的有效性。

关键字:模型压缩,稀疏正则化,剪枝,量化,语音增强

1  引言

语音增强的目的是将目标语音从背景噪声中分离出来。受计算听觉场景分析中时频(T-F)掩蔽概念的启发,语音增强被表述为有监督学习[45],[46]。在过去的十年里,许多数据驱动的算法已经被开发出来解决这个问题,其中信号中的鉴别模式是从训练数据中学习的。深度学习的迅速发展极大地促进了有监督语音增强。自从深度学习成为研究界语音增强的主要方法以来,人们对在现实世界的应用和产品(如耳机)中部署基于DNN的增强系统越来越感兴趣。然而,由于DNN[1]、[5]具有可识别的过参数化特性,要获得满意的增强性能,需要较大的DNN,这既需要计算量,又需要占用内存。这类DNN很难部署在对延迟敏感的应用程序或资源有限的设备上。因此,如何在语音增强中减少内存和计算量成为一个日益重要的问题。

深度学习社区开发了各种模型压缩技术,大致可以分为以下几类[4]。

  • 网络剪枝:旨在减少了可训练参数的数量。它根据一定的准则[34]来选择和删除最不重要的权值集。两项开创性工作是最优脑损伤[23]和最优脑外科医生[12],它们利用损失函数的hessian矩阵来确定每个权重的重要性(即权重显著性)。剔除显著性最小的权重,对剩余权重进行微调,以恢复丢失的精度。
  • 张量分解:它通过基于权重张量的低秩将一个大的权重张量分解为多个较小的张量来减少冗余。
  • 知识蒸馏:将知识从一个预先训练好的大模型转移到一个相对较小的模型,称为知识蒸馏[15]。大DNN产生的软目标用于指导小DNN的训练。该方法在图像分类[36]和语音识别[2],[27]等分类任务中被证明是有效的。
  • 轻量化模型设计:通过设计参数更高效的网络结构[16],[17],[52]来降低DNN的推理成本。
  • 网络量化:它减少权值、激活或两者的位宽。一种简单的方法是用全精度训练DNN,然后直接量化学习到的权值,结果表明,对于相对较小的DNN[18],[22],这将显著降低精度。为了弥补准确性的损失,在[18]中开发了量化感知训练,在训练过程中引入了模拟量化效应。对训练好的权值[3],[10],[11],[19]进行聚类,实现权值量化。

在过去的几年里,越来越多的研究致力于提高DNN用于语音增强的推理效率。在[25]中,开发了整数加法器DNN,使用整数加法器实现浮点乘法。评估结果表明,整数加法器DNN与具有相同结构的全精度DNN的语音质量相当,但在计算和内存方面更高效。Ye等人[50]迭代地修剪DNN用于语音增强,其中权值的重要性是通过简单地将权值的绝对值与预定义阈值进行比较来确定的。实验结果表明,他们的修剪方法可以将前馈DNN压缩约2倍,且不会降低主观可理解性的增强性能。在[49]中,Wu等人使用修剪和量化技术压缩全卷积神经网络(FCN),用于时域语音增强。他们的结果表明,这些技术可以显著减小FCN的大小而不降低性能。最近,Fedorov等人的[6]进行了剪枝和整数量化来压缩递归神经网络(RNN)以增强语音,这可以将RNN的大小降低到37%,同时尺度不变信噪比(SI-SNR)降低了0.2 dB。

尽管DNN压缩技术在图像处理等其他领域得到了广泛的发展和研究,但这些技术大多只在分类任务上进行了评估。由于基于DNN的语音增强通常被视为回归任务,对于语音增强,特定的压缩技术是否有效以及如何结合不同的技术来实现高压缩率仍不清楚。此外,由于语音增强模型的多样性和快速发展,需要一个通用的压缩管道(pipelines)。考虑到这些因素,我们最近开发了两个用于基于DNN的语音增强的初步模型压缩管道[41]。压缩管道包括稀疏正则化、迭代剪枝和基于聚类的量化。稀疏正则化通过DNN训练增加了权值张量的稀疏性,从而在不显著牺牲增强性能的情况下获得更高的剪枝率。我们交替迭代地训练和修剪DNN,然后对剩余的权值进行基于k-means聚类的量化。我们基于单张量灵敏度分析进行剪枝和量化,当权值分布在张量之间变化很大时,这将有利于剪枝率和位宽(bitwidths)的选择。在[41]的基础上,本研究进一步考察了每种技术及其组合对不同类型语音增强模型的影响,并进一步研究了说话人分离模型的压缩管道。具体来说,我们评估了不同设计的语音增强模型的压缩管道,包括DNN类型、训练目标和处理域。评估结果表明,所提出的方法大大减小了所有这些模型的尺寸,而没有显著的性能下降。此外,我们发现我们的方法在两种具有代表性的说话者独立的说话者分离模型上都有很好的效果。

本文的其余部分组织如下。在第二节中,我们将详细描述我们建议的方法。在第三节中,我们提供了实验设置。第四节给出了实验结果并进行了分析。第五节总结了本文的内容。

2  算法描述

A  基于DNN的语音增强

在本研究中,我们专注于DNN压缩用于单耳语音增强,尽管我们的方法有望应用于多通道语音增强的DNN。给定一个单通道混合信道yyy,单耳语音增强的目标是估计目标语音sss。混合信道可以被建模为:

公式1:y=s+v公式1:y=s+v公式1:y=s+v
式中vvv为背景噪声。因此基于DNN的增强可以表述为:

公式2:z=F1(y)公式2:z=F1(y)公式2:z=F_1(y)
公式3:x=H(z;Θ)公式3:x=H(z;Θ)公式3:\hat{x}=H(z;\Theta )
公式4:s=F2(x,y)公式4:s=F2(x,y)公式4:\hat{s}=F_2(\hat{x},y)
式中,F1F1F_1和F2F2F_2表示变换,HHH表示DNN表示的非线性映射函数。对于T-F域增强,F1F1F_1和F2F2F_2可以分别进行短时傅里叶变换和波形合成。对于时域增强,F1F1F_1和F2F2F_2可以分别进行分割和叠加。符号ΘΘ\Theta表示DNN中所有可训练参数的集合,表示估计的语音信号。符号zzz和xx\hat{x}分别表示DNN的输入和输出。训练参数ΘΘ\Theta使损失函数L(x,x)=L(x,H(F1(y);Θ))L(x,x)=L(x,H(F1(y);Θ))L(x,\hat{x})=L(x,H(F_1(y);\Theta)),其中xxx为训练目标。

B  迭代非结构化和结构化剪枝

一个典型的网络剪枝过程包括三个阶段:

  1. 训练一个获得满意性能的大DNN,
  2. 按照一定的准则去除被训练DNN中的一组特定的权值,
  3. 对修剪后的DNN进行微调。

我们可以将去除的权值视为零,因此剪枝可以得到稀疏的权值张量。张量稀疏的粒度影响硬件体系结构的效率。细粒度稀疏性是一种稀疏性模式,其中每个权重设置为0[23]。这种稀疏模式通常是不规则的,这使得很难应用硬件加速[30]。这个问题可以通过施加粗粒度的稀疏性来缓解,

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值