一堆定义
对各个定义的含义还是比较陌生:
Sound Pressure Level (SPL) 声音压力等级
Sound pressure is the local pressure deviationfrom the ambient atmospheric pressure caused by a sound wave
声压是由声波引起的局部压力与环境大气压的偏差
Sound pressure level (SPL) is a logarithmic measure of the sound ‘amplitude’ relative to a reference value
声压级是声音“幅度”相对于参考值的对数度量
A sound may be perceived as having ‘pitch’ and ‘timbre"
‘pitch’ 音高 ‘timbre" 音色
Frequency (f)
wavelength (λ)
sound velocity (v)
声音频率f 是每周期数(赫兹)
f = n/t = 1/T (Hz)
n 是时间 t 内的周期数,而 T是“周期”(一个周期的时间,以秒为单位)
波长λ 声速v
λ = v/f (m)
f = v/λ (Hz)
声音的种类:Impulsive, Noisy, Repetitive
最简单的重复信号是正弦波sinusoid,正弦波声音被称为纯音Pure Tone。
声波通过介质传播,相互干扰,当声波结合时,它们遵循叠加原理superposition principle
如果两个纯音具有相同的频率、幅度和相位,结果是具有两倍幅度的相同频率的纯音(相长干扰 constructive interference)
如果两个纯音具有相同的频率和幅度,但相位相反,它们会相互抵消(相消干涉 destructive interference)
Resonance 共振
当波遇到障碍物时,它们会被反射。
直接波和反射波结合(使用叠加原理)
- 相长干涉导致共振 resonance(在特定频率上增强能量)
- 相消干涉导致反共振 anti-resonance(在特定频率上减少能量)
隔音罩的共振特性取决于它们的 物理尺寸 和 表面反射特性。
简单的声学结构(例如管子)具有直接的共振特性。
v 声速
L 管子的长度
n 是正整数 (1, 2, 3 …)
n = 1 给出基波 fundamental的频率
n = 2, 3 给出谐波 harmonics的频率
两端开口的圆柱体的共振频率 f 为
f
=
n
v
2
L
f = \frac{nv}{2L}
f=2Lnv
一端开口的圆柱体的共振频率 f 为
f
=
(
2
n
−
1
)
v
4
L
f = \frac{(2n-1)v}{4L}
f=4L(2n−1)v
通用圆柱体的共振频率 f 为
f
=
(
2
i
−
(
x
1
+
x
2
)
)
c
4
L
f = \frac{(2i-(x1+x2))c}{4L}
f=4L(2i−(x1+x2))c
c 声速
L 管子的长度
i 是正整数 (1, 2, 3 …)
x1 是管一端的开口度 x2 是管另一端的开口度
neutral position (“uh”)
信号
信号是可以携带信息的物理量
离散信号选自有限字母表或密码本
连续信号源自一维标量scalar测量或者多维矢量vector测量
一些符号
(round) parentheses (圆形)括号
(squared) brackets(平方)括号
信号处理是对传感器数据的分析、解释和操作
Acoustic Signals 声音信号
物理系统可以
– 响应气压变化(例如麦克风)
– 产生气压变化(例如扬声器)
物理系统的机械特性会导致它们
oscillate 振荡(e.g. a tuning fork)音叉
resonate 共振 (e.g. an organ pipe)风琴管
当持续提供能量时,可以维持共振。当在有限的时间内提供能量时,将启动共振振荡,然后随时间衰减
信号类型:
Deterministic signals 确定性信号:aperiodic非周期性信号和periodic周期性信号
Non-deterministic signals 非确定性信号
White Noise 白噪音
白噪音是完全随机的信号
白噪声的特征是用平均值或者标准偏差(方差的平方)来表示的
白噪声可以遵循任意噪声分布,例如均匀分布,高斯(正态)分布
由恒定功率谱密度的描述和自相关函数:
除此还有高斯白噪音,二进制白噪音。
二进制白噪音的频谱和相关特性与高斯白噪音几乎没有区别,但是分布不同。
Stationary Signals固定信号
stationary signal 静止信号是一种特性不随时间变化的信号
– 恒定幅度和频率的正弦波
– 恒定均值和方差的噪声
Non-stationary signals 非静止信号随时间变化
– 幅度调制
– 频率调制
– 调制均值(和方差)
平稳信号意味着系统中存在恒定的能量源,如果系统中的能量衰减,信号将是非平稳的, 例如阻尼正弦波。
Quasi-Stationary Signals准静止信号
周期性、非周期性和随机信号的混合,因此它本质上是非平稳的。“准平稳”假设几乎用于所有语音信号处理任务。
Analogue,Digital Signals模拟与数字信号
信号量化和采样的过程被称为:pulse code modulation脉冲编码调制(PCM)
analogue-to-digital conversion 模数转换(ADC)
digital-to-analogue conversion 数模转换(DAC)
连续信号通过ADC转成采样信号再通过DAC 转成重构信号
Amplitude Quantisation 幅度量化, 可用于表示信号幅度的数字范围定义了系统的动态范围
Nyquist-Shannon 采样定理指出,我们需要每秒至少两倍的采样点数作为信号中的最高频率,对低于Nyquist速率的信号进行采样会导致混叠(频率高于采样率的能量被反射回较低的频率)
对连续信号 s(t) 进行采样相当于将其乘以狄拉克三角函数
Digital Speech Coding 数字语音编码
以较低速率对信号进行编码的方法是利用信号中的任何“冗余”
语音的最终预测模型是speech recognition语音识别+speech synthesis语音合成
Waveform Processing 波形处理
数字信号处理通常在称为块或帧的固定长度样本序列上执行
frame size (N): 每帧的样本数
frame shift ®: 连续帧开始之间的样本数
帧大小通常以时间表示, NT 秒(这里的T是样本采样周期)
frame shift通常被表示成帧速率 fr = 1/RT (fps)
voiced 浊音 unvoiced 清音
short time energy 短期能量
Short-Time Energy 是一帧中样本的平方和
能量在浊音中很大
Lbl是每个块的长度,即每帧的长度,block length,frame length
E
=
∑
i
=
0
L
b
I
−
1
s
2
[
k
]
E=\sum_{i=0}^{LbI-1} s^{2}[k]
E=i=0∑LbI−1s2[k]
Zero-Crossing Rate (ZCR)过零率
是零轴在一帧中交叉的次数
ZCR 在清音中很大,在浊音中小
Z
C
R
=
∑
k
=
1
L
b
I
−
1
0.5
∗
∣
sin
(
s
[
k
]
)
−
sin
(
s
[
k
−
1
]
)
∣
ZCR = \sum_{k=1}^{LbI-1} 0.5*\left | \sin(s[k])-\sin(s[k-1]) \right |
ZCR=k=1∑LbI−10.5∗∣sin(s[k])−sin(s[k−1])∣
可以使用 short time energy 和 Zero-Crossing Rate 构建一个简单的 Speech/Non-Speech Detection
自相关函数
Autocorrelation Function (ACF)计算信号与其自身的相关性(作为时间的函数)
ACF是许多 spectrum analysis 频谱分析的基础
short time ACF (STACF) 是许多 pitch detectors 音高检测器的基础
ACF 的计算成本相当高,STACF 经常与 ZCR 结合来构建一个有声/无声检测器
Covariance 协方差和Correlation 自相关
covariance 协方差在两个离散信号 x[k] 和 y [k] 中
C
x
y
[
k
1
,
k
2
]
=
E
{
(
x
[
k
1
]
−
μ
x
)
∗
(
y
[
k
2
]
−
μ
y
)
}
C~xy [k1,k2]=E\left \{ (x[k1]-μ~x~)* (y[k2]-μ~y~) \right \}
C xy[k1,k2]=E{(x[k1]−μ x )∗(y[k2]−μ y )}
auto-covariance 自协方差在两个相同离散信号 x[k] 中
C
x
x
[
k
1
,
k
2
]
=
E
{
(
x
[
k
1
]
−
μ
)
∗
(
x
[
k
2
]
−
μ
)
}
C~xx [k1,k2]=E\left \{ (x[k1]-μ)* (x[k2]-μ) \right \}
C xx[k1,k2]=E{(x[k1]−μ)∗(x[k2]−μ)}
假设wide-sense stationarity广义平稳性(WSS) the 协方差仅取决于*k= 𝑘1 -𝑘2 的样本索引之间
C
x
x
[
∗
k
]
=
E
{
(
x
[
k
]
−
μ
)
∗
(
x
[
k
−
∗
k
]
−
μ
)
}
C~xx [*k]=E\left \{ (x[k]-μ)* (x[k-*k]-μ) \right \}
C xx[∗k]=E{(x[k]−μ)∗(x[k−∗k]−μ)}
(auto)-correlation自相关在两个离散信号 x[k] 和 y [k] 中
R
x
x
[
∗
k
]
=
C
x
x
[
∗
k
]
σ
x
σ
x
R~xx [*k]=\frac{C~xx [*k] }{\sigma~x \sigma~x}
R xx[∗k]=σ xσ xC xx[∗k]
R
x
y
[
∗
k
]
=
C
x
y
[
∗
k
]
σ
x
σ
y
R~xy [*k]=\frac{C~xy [*k] }{\sigma~x \sigma~y}
R xy[∗k]=σ xσ yC xy[∗k]
感觉自己数学糟透了
信号滤波
滤波方式
对信号进行滤波的方式:
- 将其转换到频域(使用 DFT)
- 将信号频谱乘以滤波器频谱
- 将其转换回时域(使用 IDFT)
另一种方法是在时域中表征滤波器的作用(即在波形本身上),用 Difference equations 差分方程完成。差分方程将当前滤波器输出与当前和过去的输入和输出联系起来,可以在 Z-Domain Z域中完成
linear filter 线性滤波器遵循叠加原理,time-invariant filter非时变滤波器的输出始终相同。
linear time-invariant filter 线性非时变滤波器 h[k]的 impulse response脉冲响应,输出是:
y
[
k
]
=
∑
i
=
−
∞
∞
x
[
k
−
i
]
h
[
i
]
y[k]=\sum_{i=-\infty }^{\infty}x[k-i]h[i]
y[k]=i=−∞∑∞x[k−i]h[i]
Z变换
Z-transform Z 变换是离散时间序列的幂级数表示
对于一般序列,Z 变换写成
x
[
z
]
=
∑
n
=
−
∞
∞
x
[
k
]
z
−
k
x[z]=\sum_{n=-\infty }^{\infty}x[k]z^{-k}
x[z]=n=−∞∑∞x[k]z−k
Poles and Zeros 极点和零点
线性滤波器传递函数(由一般差分方程产生)可以写为 z 中两个多项式的比率:
H
[
z
]
=
P
[
z
]
Q
[
z
]
H[z]=\frac{P[z]}{Q[z]}
H[z]=Q[z]P[z]
P[z]=0 的 z 值称为 H[z] 的零点
Q[z]=0 的 z 值称为 H[z] 的极点
极点对应于滤波器传递函数趋于无穷大的频率(即resonances共振)
零点对应于滤波器传递函数趋于零的频率(即anti-resonances反共振)
一个滤波器的特征完全在于其极点和零点
z 域多项式通常用zi的极点和零点来写
P
[
z
]
=
∏
i
=
1
p
(
z
−
z
i
)
P[z]=\prod_{i=1}^{p}(z-z_{i})
P[z]=i=1∏p(z−zi)
Q
[
z
]
=
∏
i
=
1
q
(
z
−
z
i
)
Q[z]=\prod_{i=1}^{q}(z-z_{i})
Q[z]=i=1∏q(z−zi)
滤波器的幅度响应可以根据其极点和零点的位置快速理解,也就是
从零点到单位圆的距离乘积 除以 从极点到单位圆的距离乘积
傅里叶变换 傅里叶分析
很深奥 还是csdn吧
Linear Filters 线性滤波器
a low-pass or a high-pass filter 低通或高通滤波器的 frequency response 频率响应的特点是:
- cut-off frequency 截止频率 fc (Hz)
- roll-off rate 滚降率 (dB/octave)
一阶滤波器以 6 dB/倍频程的滚降率衰减
a band-pass filter 带通滤波器的频率响应的特点是
- centre frequency 中心频率 fc (Hz)
- bandwidth 带宽(Hz) 或“Q” (=cf/bw)
Impulse Response 脉冲响应
脉冲信号是瞬时的能量脉冲,理想化的脉冲信号具有平坦的频谱,因此,滤波器的脉冲响应具有与其频率响应相等的频谱 。白噪声也具有平坦频谱。
Source-Filter Modelling 源过滤器建模
设计一个频率响应等于元音频谱的滤波器并输入一系列脉冲,生成原始元音。
另外,设计一个具有清音的频率响应的滤波器并输入一个白噪声信号,产生原始的摩擦音。
实用过滤器
滤波器设置
滤波器的行为由其极点和零点的数量和位置定义,过滤器的复杂性通常由其 order阶 来定义,在数字滤波器中,阶数定义为计算中涉及的过去(输入或输出)值的数量。例如,采用两个过去值的过滤器称为二阶过滤器。
General Digital Filter 通用数字滤波器
对于 极点 = 0 的情况,得到的非递归滤波器被称为 finite impulse response有限脉冲响应 FIR滤波器,如果极点大于 0, 生成的递归滤波器被称为 infinite impulse response无限脉冲响应 IIR 滤波器。
FIR 滤波器将每个输出样本表示为最后 N 个输入的加权和(其中 N 是滤波器的阶数)
优点
- 本质上是稳定的,所以不需要feedback
- 系数通常是对称的,因此相位响应是线性的,所有频率的信号均等延迟
- 溢出很容易避免
- 通常比 IIR 更容易设计滤波器
缺点
- 可能需要比等效 IIR 滤波器更多的处理和内存资源
- 通常需要比 IIR 滤波器高得多的滤波器阶数
- 延迟可能比等效 IIR 滤波器大得多
IIR 滤波器是模拟滤波器的数字对应物,因为它们包含一个内部状态,并且输出和下一个内部状态由先前的输入和输出决定
优点
- 通常比具有类似性能的 FIR 滤波器需要更少的计算资源
缺点
- 因为feedback,高阶 IIR 滤波器可能存在不稳定性、算术溢出和限制周期问题
- 需要仔细设计以避免此类陷阱
- 时间通过这种滤波器的延迟与频率有关(因为相移本质上是频率的非线性函数)
IIR 滤波器都接近理想的 brickwall 滤波器,高阶 IIR 滤波器很容易变得不稳定,二阶 IIR 滤波器通常称为biquads ,高阶滤波器通常实现为二阶IIR滤波器的多个级联。
常见的通用滤波器有:
- notch filtering 陷波滤波(去除干扰和噪声)
- pre-emphasis 预加重(均衡频率响应)
biquads 二阶 IIR 滤波器
biquad 滤波器是二阶递归线性 IIR 滤波器,包含两个极点和两个零点,它的Z域传递函数是两个二次函数的比值
上图下方的是差分方程。
Auditory Filters 听觉过滤器
与 DFT/FFT 相关的滤波器组具有恒定带宽,并且以沿频率轴的均匀间隔位置为中心,为了更好地模拟人耳的频率响应特性,许多研究人员使用受听觉系统启发的滤波器 ,该滤波器通常具有非均匀带宽和中心频率的不均匀间隔。
最著名的听觉过滤器是gammatone,该滤波器的脉冲响应是伽马分布和正弦音调的乘积。