语音处理信号滤波线性滤波器(笔记)

一堆定义

对各个定义的含义还是比较陌生:

Sound Pressure Level (SPL) 声音压力等级

Sound pressure is the local pressure deviationfrom the ambient atmospheric pressure caused by a sound wave
声压是由声波引起的局部压力与环境大气压的偏差
Sound pressure level (SPL) is a logarithmic measure of the sound ‘amplitude’ relative to a reference value
声压级是声音“幅度”相对于参考值的对数度量
A sound may be perceived as having ‘pitch’ and ‘timbre"
‘pitch’ 音高 ‘timbre" 音色

Frequency (f)
wavelength (λ)
sound velocity (v)
声音频率f 是每周期数(赫兹)
f = n/t = 1/T (Hz)
n 是时间 t 内的周期数,而 T是“周期”(一个周期的时间,以秒为单位)

波长λ 声速v
λ = v/f (m)
f = v/λ (Hz)

声音的种类:Impulsive, Noisy, Repetitive
最简单的重复信号是正弦波sinusoid,正弦波声音被称为纯音Pure Tone。

声波通过介质传播,相互干扰,当声波结合时,它们遵循叠加原理superposition principle
如果两个纯音具有相同的频率、幅度和相位,结果是具有两倍幅度的相同频率的纯音(相长干扰 constructive interference)
如果两个纯音具有相同的频率和幅度,但相位相反,它们会相互抵消(相消干涉 destructive interference)

Resonance 共振

当波遇到障碍物时,它们会被反射。
直接波和反射波结合(使用叠加原理)

  • 相长干涉导致共振 resonance(在特定频率上增强能量)
  • 相消干涉导致反共振 anti-resonance(在特定频率上减少能量)

隔音罩的共振特性取决于它们的 物理尺寸 和 表面反射特性。
简单的声学结构(例如管子)具有直接的共振特性。

v 声速
L 管子的长度
n 是正整数 (1, 2, 3 …)
n = 1 给出基波 fundamental的频率
n = 2, 3 给出谐波 harmonics的频率

两端开口的圆柱体的共振频率 f 为
f = n v 2 L f = \frac{nv}{2L} f=2Lnv
一端开口的圆柱体的共振频率 f 为
f = ( 2 n − 1 ) v 4 L f = \frac{(2n-1)v}{4L} f=4L2n1v

通用圆柱体的共振频率 f 为
f = ( 2 i − ( x 1 + x 2 ) ) c 4 L f = \frac{(2i-(x1+x2))c}{4L} f=4L2ix1+x2c
c 声速
L 管子的长度
i 是正整数 (1, 2, 3 …)
x1 是管一端的开口度 x2 是管另一端的开口度

neutral position (“uh”)

信号

信号是可以携带信息的物理量
离散信号选自有限字母表或密码本
连续信号源自一维标量scalar测量或者多维矢量vector测量

一些符号

(round) parentheses (圆形)括号
(squared) brackets(平方)括号
在这里插入图片描述

信号处理是对传感器数据的分析、解释和操作

Acoustic Signals 声音信号

物理系统可以
– 响应气压变化(例如麦克风)
– 产生气压变化(例如扬声器)
物理系统的机械特性会导致它们
oscillate 振荡(e.g. a tuning fork)音叉
resonate 共振 (e.g. an organ pipe)风琴管
当持续提供能量时,可以维持共振。当在有限的时间内提供能量时,将启动共振振荡,然后随时间衰减
信号类型:
Deterministic signals 确定性信号:aperiodic非周期性信号和periodic周期性信号
Non-deterministic signals 非确定性信号

White Noise 白噪音

白噪音是完全随机的信号
白噪声的特征是用平均值或者标准偏差(方差的平方)来表示的
白噪声可以遵循任意噪声分布,例如均匀分布,高斯(正态)分布
由恒定功率谱密度的描述和自相关函数:
在这里插入图片描述
在这里插入图片描述
除此还有高斯白噪音,二进制白噪音。
二进制白噪音的频谱和相关特性与高斯白噪音几乎没有区别,但是分布不同。

Stationary Signals固定信号

stationary signal 静止信号是一种特性不随时间变化的信号
– 恒定幅度和频率的正弦波
– 恒定均值和方差的噪声
Non-stationary signals 非静止信号随时间变化
– 幅度调制
– 频率调制
– 调制均值(和方差)
平稳信号意味着系统中存在恒定的能量源,如果系统中的能量衰减,信号将是非平稳的, 例如阻尼正弦波。

Quasi-Stationary Signals准静止信号

周期性、非周期性和随机信号的混合,因此它本质上是非平稳的。“准平稳”假设几乎用于所有语音信号处理任务。

Analogue,Digital Signals模拟与数字信号

信号量化和采样的过程被称为:pulse code modulation脉冲编码调制(PCM)
analogue-to-digital conversion 模数转换(ADC)
digital-to-analogue conversion 数模转换(DAC)
连续信号通过ADC转成采样信号再通过DAC 转成重构信号
Amplitude Quantisation 幅度量化, 可用于表示信号幅度的数字范围定义了系统的动态范围

Nyquist-Shannon 采样定理指出,我们需要每秒至少两倍的采样点数作为信号中的最高频率,对低于Nyquist速率的信号进行采样会导致混叠(频率高于采样率的能量被反射回较低的频率)
对连续信号 s(t) 进行采样相当于将其乘以狄拉克三角函数

Digital Speech Coding 数字语音编码

以较低速率对信号进行编码的方法是利用信号中的任何“冗余”
语音的最终预测模型是speech recognition语音识别+speech synthesis语音合成

Waveform Processing 波形处理

数字信号处理通常在称为块或帧的固定长度样本序列上执行
frame size (N): 每帧的样本数
frame shift ®: 连续帧开始之间的样本数
帧大小通常以时间表示, NT 秒(这里的T是样本采样周期)
frame shift通常被表示成帧速率 fr = 1/RT (fps)
在这里插入图片描述
voiced 浊音 unvoiced 清音

short time energy 短期能量

Short-Time Energy 是一帧中样本的平方和
能量在浊音中很大
Lbl是每个块的长度,即每帧的长度,block length,frame length
E = ∑ i = 0 L b I − 1 s 2 [ k ] E=\sum_{i=0}^{LbI-1} s^{2}[k] E=i=0LbI1s2[k]

Zero-Crossing Rate (ZCR)过零率

是零轴在一帧中交叉的次数
ZCR 在清音中很大,在浊音中小
Z C R = ∑ k = 1 L b I − 1 0.5 ∗ ∣ sin ⁡ ( s [ k ] ) − sin ⁡ ( s [ k − 1 ] ) ∣ ZCR = \sum_{k=1}^{LbI-1} 0.5*\left | \sin(s[k])-\sin(s[k-1]) \right | ZCR=k=1LbI10.5sin(s[k])sin(s[k1])
可以使用 short time energy 和 Zero-Crossing Rate 构建一个简单的 Speech/Non-Speech Detection

自相关函数

Autocorrelation Function (ACF)计算信号与其自身的相关性(作为时间的函数)
ACF是许多 spectrum analysis 频谱分析的基础
short time ACF (STACF) 是许多 pitch detectors 音高检测器的基础
ACF 的计算成本相当高,STACF 经常与 ZCR 结合来构建一个有声/无声检测器

Covariance 协方差和Correlation 自相关

covariance 协方差在两个离散信号 x[k] 和 y [k] 中
C   x y [ k 1 , k 2 ] = E { ( x [ k 1 ] − μ   x   ) ∗ ( y [ k 2 ] − μ   y   ) } C~xy [k1,k2]=E\left \{ (x[k1]-μ~x~)* (y[k2]-μ~y~) \right \} C xy[k1,k2]=E{(x[k1]μ x )(y[k2]μ y )}
auto-covariance 自协方差在两个相同离散信号 x[k] 中
C   x x [ k 1 , k 2 ] = E { ( x [ k 1 ] − μ ) ∗ ( x [ k 2 ] − μ ) } C~xx [k1,k2]=E\left \{ (x[k1]-μ)* (x[k2]-μ) \right \} C xx[k1,k2]=E{(x[k1]μ)(x[k2]μ)}
假设wide-sense stationarity广义平稳性(WSS) the 协方差仅取决于*k= 𝑘1 -𝑘2 的样本索引之间

C   x x [ ∗ k ] = E { ( x [ k ] − μ ) ∗ ( x [ k − ∗ k ] − μ ) } C~xx [*k]=E\left \{ (x[k]-μ)* (x[k-*k]-μ) \right \} C xx[k]=E{(x[k]μ)(x[kk]μ)}
(auto)-correlation自相关在两个离散信号 x[k] 和 y [k] 中
R   x x [ ∗ k ] = C   x x [ ∗ k ] σ   x σ   x R~xx [*k]=\frac{C~xx [*k] }{\sigma~x \sigma~x} R xx[k]=σ xσ xC xx[k]
R   x y [ ∗ k ] = C   x y [ ∗ k ] σ   x σ   y R~xy [*k]=\frac{C~xy [*k] }{\sigma~x \sigma~y} R xy[k]=σ xσ yC xy[k]
在这里插入图片描述

感觉自己数学糟透了

信号滤波

滤波方式

对信号进行滤波的方式:

  1. 将其转换到频域(使用 DFT)
  2. 将信号频谱乘以滤波器频谱
  3. 将其转换回时域(使用 IDFT)

另一种方法是在时域中表征滤波器的作用(即在波形本身上),用 Difference equations 差分方程完成。差分方程将当前滤波器输出与当前和过去的输入和输出联系起来,可以在 Z-Domain Z域中完成
linear filter 线性滤波器遵循叠加原理,time-invariant filter非时变滤波器的输出始终相同。

linear time-invariant filter 线性非时变滤波器 h[k]的 impulse response脉冲响应,输出是:
y [ k ] = ∑ i = − ∞ ∞ x [ k − i ] h [ i ] y[k]=\sum_{i=-\infty }^{\infty}x[k-i]h[i] y[k]=i=x[ki]h[i]

Z变换

Z-transform Z 变换是离散时间序列的幂级数表示
对于一般序列,Z 变换写成
x [ z ] = ∑ n = − ∞ ∞ x [ k ] z − k x[z]=\sum_{n=-\infty }^{\infty}x[k]z^{-k} x[z]=n=x[k]zk
在这里插入图片描述

Poles and Zeros 极点和零点

线性滤波器传递函数(由一般差分方程产生)可以写为 z 中两个多项式的比率:
H [ z ] = P [ z ] Q [ z ] H[z]=\frac{P[z]}{Q[z]} H[z]=Q[z]P[z]
P[z]=0 的 z 值称为 H[z] 的零点
Q[z]=0 的 z 值称为 H[z] 的极点
极点对应于滤波器传递函数趋于无穷大的频率(即resonances共振)
零点对应于滤波器传递函数趋于零的频率(即anti-resonances反共振)
一个滤波器的特征完全在于其极点和零点
z 域多项式通常用zi的极点和零点来写
P [ z ] = ∏ i = 1 p ( z − z i ) P[z]=\prod_{i=1}^{p}(z-z_{i}) P[z]=i=1p(zzi)
Q [ z ] = ∏ i = 1 q ( z − z i ) Q[z]=\prod_{i=1}^{q}(z-z_{i}) Q[z]=i=1q(zzi)

滤波器的幅度响应可以根据其极点和零点的位置快速理解,也就是
从零点到单位圆的距离乘积 除以 从极点到单位圆的距离乘积

傅里叶变换 傅里叶分析

很深奥 还是csdn吧

Linear Filters 线性滤波器

a low-pass or a high-pass filter 低通或高通滤波器的 frequency response 频率响应的特点是:

  • cut-off frequency 截止频率 fc (Hz)
  • roll-off rate 滚降率 (dB/octave)

一阶滤波器以 6 dB/倍频程的滚降率衰减
a band-pass filter 带通滤波器的频率响应的特点是

  • centre frequency 中心频率 fc (Hz)
  • bandwidth 带宽(Hz) 或“Q” (=cf/bw)

Impulse Response 脉冲响应

脉冲信号是瞬时的能量脉冲,理想化的脉冲信号具有平坦的频谱,因此,滤波器的脉冲响应具有与其频率响应相等的频谱 。白噪声也具有平坦频谱。

Source-Filter Modelling 源过滤器建模

设计一个频率响应等于元音频谱的滤波器并输入一系列脉冲,生成原始元音。
另外,设计一个具有清音的频率响应的滤波器并输入一个白噪声信号,产生原始的摩擦音。

实用过滤器

请添加图片描述

在这里插入图片描述

滤波器设置

滤波器的行为由其极点和零点的数量和位置定义,过滤器的复杂性通常由其 order阶 来定义,在数字滤波器中,阶数定义为计算中涉及的过去(输入或输出)值的数量。例如,采用两个过去值的过滤器称为二阶过滤器。

General Digital Filter 通用数字滤波器

对于 极点 = 0 的情况,得到的非递归滤波器被称为 finite impulse response有限脉冲响应 FIR滤波器,如果极点大于 0, 生成的递归滤波器被称为 infinite impulse response无限脉冲响应 IIR 滤波器。

FIR 滤波器将每个输出样本表示为最后 N 个输入的加权和(其中 N 是滤波器的阶数)
优点

  • 本质上是稳定的,所以不需要feedback
  • 系数通常是对称的,因此相位响应是线性的,所有频率的信号均等延迟
  • 溢出很容易避免
  • 通常比 IIR 更容易设计滤波器

缺点

  • 可能需要比等效 IIR 滤波器更多的处理和内存资源
  • 通常需要比 IIR 滤波器高得多的滤波器阶数
  • 延迟可能比等效 IIR 滤波器大得多

IIR 滤波器是模拟滤波器的数字对应物,因为它们包含一个内部状态,并且输出和下一个内部状态由先前的输入和输出决定
优点

  • 通常比具有类似性能的 FIR 滤波器需要更少的计算资源

缺点

  • 因为feedback,高阶 IIR 滤波器可能存在不稳定性、算术溢出和限制周期问题
  • 需要仔细设计以避免此类陷阱
  • 时间通过这种滤波器的延迟与频率有关(因为相移本质上是频率的非线性函数)

IIR 滤波器都接近理想的 brickwall 滤波器,高阶 IIR 滤波器很容易变得不稳定,二阶 IIR 滤波器通常称为biquads ,高阶滤波器通常实现为二阶IIR滤波器的多个级联。

常见的通用滤波器有:

  • notch filtering 陷波滤波(去除干扰和噪声)
  • pre-emphasis 预加重(均衡频率响应)

biquads 二阶 IIR 滤波器

biquad 滤波器是二阶递归线性 IIR 滤波器,包含两个极点和两个零点,它的Z域传递函数是两个二次函数的比值
在这里插入图片描述
在这里插入图片描述
上图下方的是差分方程。

Auditory Filters 听觉过滤器

与 DFT/FFT 相关的滤波器组具有恒定带宽,并且以沿频率轴的均匀间隔位置为中心,为了更好地模拟人耳的频率响应特性,许多研究人员使用受听觉系统启发的滤波器 ,该滤波器通常具有非均匀带宽和中心频率的不均匀间隔。
最著名的听觉过滤器是gammatone,该滤波器的脉冲响应是伽马分布和正弦音调的乘积。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值