在这个七月有幸能够到广东智能制造研究所进行实习,而博士给我的实习任务则是完成一篇 有关声音分离与降噪的总结报告 (或者与信号分离有关的报告)。对于我这种从未专业学习过声音知识的小白来说,顺着博士给的论文资料边读边翻阅资料应该是最合适的方法。
因为是顺着论文进行的资料查询,知识点难免会有些絮乱,仅以总结自己的学习为主要目的。
1. 基音、泛音、清音
基音指的是声音中频率最低的振动所发出的音,而泛音指的是声音中其余的音色。
举个实际的例子来表明两种音的作用,那就是基音决定声音的音高,泛音决定声音的音色。
其实这不难理解。我们都知道声音是由振动产生的波形成的,而波一定具有周期性。因此,我们可以把这一个“声音波”进行傅里叶变换,基音就是变换后的基波,他频率最低,但振幅最大即声音最响,因此整体的声音皆被基音所覆盖。 而泛音则是变换后的谐波,它们的振幅依次减小,组成的“声音波”便成为了声音的音色。
具我观测(仅以我第一天的学习见解),声音中大部分的数值处理都运用到了傅里叶变换,毕竟声音由波形成,而波又有周期,如此法分析怕是再合适不过了。
清音则是发声时声带不振动的音。例如我们平时上课说悄悄话,从喉咙里“呵”出来的声音就是清音。 由于清音发出时不会振动到声带,清音形成简谐波振幅几乎为零,因此要从其他声音中分离出来略有难度。
2. 谱减法和维纳滤波法
这是两种降噪的基本方法,其方法的实现有点类似于电路的阶跃响应。
首先介绍谱减法,即用带噪信号的频谱减去噪声信号的频谱。如图
图片取自另一用户
这应该很容易理解,其实就是“删除特定频谱”,而噪音的频谱即为所要删除的特定频谱。降噪算法越是精密,越能保持信号的完整性即“保真”。 此外,谱减法也是目前最基础和最稳定的降噪方法。
说了那么多貌似还没介绍频谱是啥?(我的锅!现在补上!)频谱即为频率的分布曲线,是频率谱密度的简称,可以简单理解为是一种以声音频率为横坐标,声音振幅为纵坐标的二维曲线。 由于频谱图具有极高的数学意义,利于分析,故被大量运用到实验中(我协助博士的第一个实验“研究罐装饮料的密封性”即使用到了频谱图进行分析)。
维纳滤波是一种基于最小均方误差准则、对平稳过程的最优估计器。简单描述它的基本原理,先设设观察信号y(t)含有彼此统计独立的期望信号x(t)和白噪声w(t),即y(t)=x(t)+w(t),然后设计一个线性滤波器,其冲激响应为h(t),设维纳滤波从观察信号y(t)中恢复的期望信号为x(t),输出x(t)为:
x
(
t
)
=
∫
0
∞
h
(
τ
)
y
(
t
−
τ
)
d
τ
x(t) = \int_0^\infty h(\tau)y(t - \tau)d\tau
x(t)=∫0∞h(τ)y(t−τ)dτ我对维纳滤波的研究到此公式便结束了,受知识储备的限制再继续深究怕会用上我好几天的时间。等之后完成了总结了我再回来继续学习维纳滤波。
3. 信噪比
指电子设备或电子系统中信号与噪声的比例。噪声:除所需信息以外的所有别的信息均为噪声(不单单局限于声音,图像处理中也有噪声——噪点,各种信息处理中均存在噪声,只不过所用的称呼会有所不同)。信噪比的计算公式有两个,先介绍第一个
10
l
g
(
P
s
P
n
)
10lg(\frac{P_s}{P_n})
10lg(PnPs)其中
P
s
P_s
Ps为信号的有效功率,
P
n
P_n
Pn为噪声的有效功率。
第二个计算公式为:
20
l
g
(
V
s
V
n
)
20lg(\frac{V_s}{V_n})
20lg(VnVs)其中
V
s
V_s
Vs为信号电压的有效值,
V
n
V_n
Vn为噪声电压的有效值。
而这里提到的信号和噪声的功率、电压可以看成是放大器接收或放出信号时所需的工作功率和电压。其实根本上是因为信号的发出都需要携带能量,其能量的值可以从其波形计算得到。犹如计算谐波能量的方法,我们可以通俗地把能量的值看作波振幅的平方的积分。当然了这种算法仅是我个人对信号的理解(信号为波并可用傅里叶展开)推测出的结论,在之后的学习中我会不断更进各种知识点。
4. 信息处理
过零率
过零率是指信号正负变化的比率,如字面的意思。过零率高的音讯往往为噪音或子音。
线性代数
声音的处理(或者说信息的处理)用到的核心数学工具都是线性代数,这点应该大家都了解。
除此之外,语音分离根据不用的应用要求会有不同的侧重点,但都要求尽可能保真。
End
以上就是第一天的学习记录,希望之后能再接再厉认真学习!