实习学习记录——记录声音分离与降噪处理学习总结(第三、四天)

今天可以说真的是充满迷惑的一天,整个人都沉浸在一种“这是啥”“我是谁”的状态里。迫使我不得不还没下班就来总结自己的学习,要不然怕是会一直浑噩地浪费掉这一天。

1. 语音分离目标

1.1 主要目标

语音分离有许多重要的应用, 总结起来主要有 两个方面:

  1. 以人耳作为目标受体, 提高人耳对带噪语音的可懂度和感知质量, 比如应用于语音通讯;
  2. 以机器作为目标受体, 提高机器对带噪语音的识别准确率, 例如应用于语音识别。

对于这两个主要的语音分离目标, 它们存在许多密切的联系, 例如, 以提高带噪语音的可懂度和感知质量为目标的语音分离系统通常可以作为语音识别的前端处理模块, 能够显著地提高语音识别的性能。(即部分以人耳为目标受体的分离系统用于以机器为目标受体的系统中能发挥不错的效果,反过来亦是如此

尽管如此, 它们之间仍然存在许多差别。 以提高语音的可懂度和感知质量为目标的语音分离系统侧重于去除混合语音中的噪音成分, 往往会导致比较严重的语音畸变; 而以提高语音识别准确率为目标的语音分离系统更多地关注语音成分, 在语音分离过程中尽可能保留语音成分, 避免语音畸变

针对语音分离两个主要目标, 许多具体的学习目标被提出, 常用的分离目标大致可以分为三类: 时频掩蔽语音幅度谱估计隐式时频掩蔽。(尽管我知道这三点肯定是关键的知识点,但没有大量专业前置知识是真的难以搞懂啊!!!)

1.2 常用的三大类分离目标之一:时频掩蔽

在讲时频掩蔽之前我们先了解时频分析的含义。“时频”即“时间”和“频率”合起来的简称,时频分析是人们用来分析分平稳信号的一种工具,这种方法提供了时间域和频率域的联合分步信息描述了信号频率随时间的变化关系。百度百科对时频分析的基思想描述是:设计时间和频率的联合函数,用它同时描述信号在不同时间和频率的能量密度或强度。 在这里插入图片描述

依我看来,这种分析方法无异于将机械波的形状与其关于时间的变化图像分开表示出来,只是将波自变量从位移变为了频率(尽管这个观点有很多漏洞,但这能方便我理解这个方法的原理,或者说是理解这个方法到底要干嘛)。

然后我还想要讲的东西就是:关于听觉的掩蔽效应。因为我看到在资料中用掩蔽效应分离语音用到的都是逆变换技术,而这种技术文中也没有给出具体算法解释,我也完全不知道其中的原理,所以我认为与其死磕不如了解一下听觉掩蔽效应的产生原理(说不定还能帮助我从中探寻出逆变换的原理)。
听觉中的掩蔽效应指人的耳朵只对最明显的声音反应敏感,而对于不明显的声音,反应则较不为敏感。一个声音的闻阈值(这里的阈值表示能听出声音得到最小值)由于另一个声音的出现而提高的效应。 前者称为掩蔽音,后者称为被掩蔽声。对于两个纯音来说,最明显的掩蔽效应出现在掩蔽声频率附近,低频纯音能有效地掩蔽高频纯音,而高频纯音对低频纯音的掩蔽效应小。而正是利用掩蔽效应,声音文件能被大大压缩,重点保留人耳较敏感的中频段声音。诸如mp3等音频格式便是利用了这个原理来对音频进行压缩。(1. 听觉系统存在阈值电平,可把低于阈值电平的信号去掉; 2. 听觉阈值的大小随声音频率的改变而改变; 3. 大多数人的听觉系统对2~5 kHz频率的声音最敏感
而“时频掩蔽”顾名思义就关联到了听觉掩蔽中的“时域掩蔽效应”和“和频域掩蔽效应”。

时域掩蔽效应又分为同时掩蔽滞后掩蔽超前掩蔽
同时掩蔽(又称频域掩蔽):信号和掩蔽音同时产生的现象。
滞后掩蔽:信号出现在掩蔽音消失后产生的现象,一般可以持续50~200ms。
超前掩蔽:信号出现在掩蔽音出现之前产生的现象。虽然对超前掩蔽有许多研究报告,但这种现象仍然令人费解。一般来说,超前掩蔽很短,只有大约2~20ms。
产生时域掩蔽的主要原因是大脑需要通过一定时间来处理声音信息(我猜是因此可能形成了类似于人眼看LED灯的现象,即人脑来不及分辨这种产生间隔过小的信息)。

在这里插入图片描述

时域掩蔽图
频域掩蔽效应即时域掩蔽中的同时掩蔽效应。一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽。如,一个声强为60dB、频率为1000Hz的纯音,另外还有一个1100Hz的纯音,前者比后者高18dB,在这种情况下我们的耳朵就只能听到那个1000Hz的强音。一般来说,弱纯音离强纯音越近就越容易被掩蔽;低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。用简单粗暴的例子来解释:一个人低沉地吼,另一个人用高音叫,吼的声音往往能覆盖高音的声音,就好比施工工地的机器轰鸣声能把人说话的声音掩盖掉一样。而高音又难以掩盖低音,例如在音乐会上不管台上的女高音的声音有多大,你总是能听到低沉的鼓点声(不管鼓的声音有多小)。
我认为这种情况有点类似于光的传播。光的频率越高穿透力越强对应高频纯音);光的波长越大衍射能力越强、绕过障碍的能力越强、覆盖面越广(对应低频纯音)。当然这只是我的一面之词,但博主认为这两者之间一定存在某些相似的规律(毕竟它们都是波嘛)。
那学到这,我们就不难理解用时频掩蔽分离语音即利用时域掩蔽中的三种掩蔽类型的逆变换来对被语音信息进行分离。
End

下一篇博文继续钻研语音分离目标!!!!!!

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值