语音处理信号滤波线性滤波器（笔记）

爱格白

已于 2022-12-08 21:47:49 修改

阅读量2.6k

点赞数

分类专栏：学习笔记文章标签：语音识别 1024程序员节

于 2022-09-28 20:49:52 首次发布

本文链接：https://blog.csdn.net/zj71hmvx/article/details/127095458

版权

学习笔记专栏收录该内容

40 篇文章 1 订阅

订阅专栏

一堆定义

对各个定义的含义还是比较陌生：

Sound Pressure Level (SPL) 声音压力等级

Sound pressure is the local pressure deviationfrom the ambient atmospheric pressure caused by a sound wave
声压是由声波引起的局部压力与环境大气压的偏差
Sound pressure level (SPL) is a logarithmic measure of the sound ‘amplitude’ relative to a reference value
声压级是声音“幅度”相对于参考值的对数度量
A sound may be perceived as having ‘pitch’ and ‘timbre"
‘pitch’ 音高 ‘timbre" 音色

Frequency (f)
wavelength (λ)
sound velocity (v)
声音频率f 是每周期数（赫兹）
f = n/t = 1/T (Hz)
n 是时间 t 内的周期数，而 T是“周期”（一个周期的时间，以秒为单位）

波长λ 声速v
λ = v/f (m)
f = v/λ (Hz)

声音的种类：Impulsive, Noisy, Repetitive
最简单的重复信号是正弦波sinusoid，正弦波声音被称为纯音Pure Tone。

声波通过介质传播，相互干扰，当声波结合时，它们遵循叠加原理superposition principle
如果两个纯音具有相同的频率、幅度和相位，结果是具有两倍幅度的相同频率的纯音（相长干扰 constructive interference）
如果两个纯音具有相同的频率和幅度，但相位相反，它们会相互抵消（相消干涉 destructive interference）

Resonance 共振

当波遇到障碍物时，它们会被反射。
直接波和反射波结合（使用叠加原理）

相长干涉导致共振 resonance（在特定频率上增强能量）
相消干涉导致反共振 anti-resonance（在特定频率上减少能量）

隔音罩的共振特性取决于它们的物理尺寸和表面反射特性。
简单的声学结构（例如管子）具有直接的共振特性。

v 声速
L 管子的长度
n 是正整数 (1, 2, 3 …)
n = 1 给出基波 fundamental的频率
n = 2, 3 给出谐波 harmonics的频率

两端开口的圆柱体的共振频率 f 为
$\frac{nv}{2L}$
一端开口的圆柱体的共振频率 f 为
$\frac{（2n-1）v}{4L}$

通用圆柱体的共振频率 f 为
$\frac{（2i-（x1+x2））c}{4L}$
c 声速
L 管子的长度
i 是正整数 (1, 2, 3 …)
x1 是管一端的开口度 x2 是管另一端的开口度

neutral position (“uh”）

信号

信号是可以携带信息的物理量
离散信号选自有限字母表或密码本
连续信号源自一维标量scalar测量或者多维矢量vector测量

一些符号

(round) parentheses （圆形）括号
(squared) brackets（平方）括号
在这里插入图片描述

信号处理是对传感器数据的分析、解释和操作

Acoustic Signals 声音信号

物理系统可以
– 响应气压变化（例如麦克风）
– 产生气压变化（例如扬声器）
物理系统的机械特性会导致它们
oscillate 振荡(e.g. a tuning fork)音叉
resonate 共振 (e.g. an organ pipe)风琴管
当持续提供能量时，可以维持共振。当在有限的时间内提供能量时，将启动共振振荡，然后随时间衰减
信号类型：
Deterministic signals 确定性信号：aperiodic非周期性信号和periodic周期性信号
Non-deterministic signals 非确定性信号

White Noise 白噪音

白噪音是完全随机的信号
白噪声的特征是用平均值或者标准偏差（方差的平方）来表示的
白噪声可以遵循任意噪声分布，例如均匀分布，高斯（正态）分布
由恒定功率谱密度的描述和自相关函数：
在这里插入图片描述

除此还有高斯白噪音，二进制白噪音。
二进制白噪音的频谱和相关特性与高斯白噪音几乎没有区别，但是分布不同。

Stationary Signals固定信号

stationary signal 静止信号是一种特性不随时间变化的信号
– 恒定幅度和频率的正弦波
– 恒定均值和方差的噪声
Non-stationary signals 非静止信号随时间变化
– 幅度调制
– 频率调制
– 调制均值（和方差）
平稳信号意味着系统中存在恒定的能量源，如果系统中的能量衰减，信号将是非平稳的，例如阻尼正弦波。

Quasi-Stationary Signals准静止信号

周期性、非周期性和随机信号的混合，因此它本质上是非平稳的。“准平稳”假设几乎用于所有语音信号处理任务。

Analogue，Digital Signals模拟与数字信号

信号量化和采样的过程被称为：pulse code modulation脉冲编码调制（PCM）
analogue-to-digital conversion 模数转换(ADC)
digital-to-analogue conversion 数模转换(DAC)
连续信号通过ADC转成采样信号再通过DAC 转成重构信号
Amplitude Quantisation 幅度量化，可用于表示信号幅度的数字范围定义了系统的动态范围

Nyquist-Shannon 采样定理指出，我们需要每秒至少两倍的采样点数作为信号中的最高频率，对低于Nyquist速率的信号进行采样会导致混叠（频率高于采样率的能量被反射回较低的频率）
对连续信号 s(t) 进行采样相当于将其乘以狄拉克三角函数

Digital Speech Coding 数字语音编码

以较低速率对信号进行编码的方法是利用信号中的任何“冗余”
语音的最终预测模型是speech recognition语音识别+speech synthesis语音合成

Waveform Processing 波形处理

数字信号处理通常在称为块或帧的固定长度样本序列上执行
frame size (N): 每帧的样本数
frame shift ®: 连续帧开始之间的样本数
帧大小通常以时间表示, NT 秒（这里的T是样本采样周期）
frame shift通常被表示成帧速率 fr = 1/RT (fps)
在这里插入图片描述
voiced 浊音 unvoiced 清音

short time energy 短期能量

Short-Time Energy 是一帧中样本的平方和
能量在浊音中很大
Lbl是每个块的长度，即每帧的长度，block length,frame length
$E=\sum_{i=0}^{LbI-1} s^{2}[k]$

Zero-Crossing Rate （ZCR）过零率

是零轴在一帧中交叉的次数
ZCR 在清音中很大，在浊音中小
$\sum_{k=1}^{LbI-1} 0.5*\left | \sin(s[k])-\sin(s[k-1]) \right |$
可以使用 short time energy 和 Zero-Crossing Rate 构建一个简单的 Speech/Non-Speech Detection

自相关函数

Autocorrelation Function （ACF）计算信号与其自身的相关性（作为时间的函数）
ACF是许多 spectrum analysis 频谱分析的基础
short time ACF (STACF) 是许多 pitch detectors 音高检测器的基础
ACF 的计算成本相当高，STACF 经常与 ZCR 结合来构建一个有声/无声检测器

Covariance 协方差和Correlation 自相关

covariance 协方差在两个离散信号 x[k] 和 y [k] 中
$[k1,k2]=E\left \{ (x[k1]-μ~x~)* (y[k2]-μ~y~) \right \}$
auto-covariance 自协方差在两个相同离散信号 x[k] 中
$[k1,k2]=E\left \{ (x[k1]-μ)* (x[k2]-μ) \right \}$
假设wide-sense stationarity广义平稳性(WSS) the 协方差仅取决于*k= 𝑘1 -𝑘2 的样本索引之间

$[*k]=E\left \{ (x[k]-μ)* (x[k-*k]-μ) \right \}$
(auto)-correlation自相关在两个离散信号 x[k] 和 y [k] 中
$[*k]=\frac{C~xx [*k] }{\sigma~x \sigma~x}$
$[*k]=\frac{C~xy [*k] }{\sigma~x \sigma~y}$
在这里插入图片描述

感觉自己数学糟透了

信号滤波

滤波方式

对信号进行滤波的方式：

将其转换到频域（使用 DFT）
将信号频谱乘以滤波器频谱
将其转换回时域（使用 IDFT）

另一种方法是在时域中表征滤波器的作用（即在波形本身上），用 Difference equations 差分方程完成。差分方程将当前滤波器输出与当前和过去的输入和输出联系起来，可以在 Z-Domain Z域中完成
linear filter 线性滤波器遵循叠加原理，time-invariant filter非时变滤波器的输出始终相同。

linear time-invariant filter 线性非时变滤波器 h[k]的 impulse response脉冲响应，输出是：
$y[k]=\sum_{i=-\infty }^{\infty}x[k-i]h[i]$

Z变换

Z-transform Z 变换是离散时间序列的幂级数表示
对于一般序列，Z 变换写成
$x[z]=\sum_{n=-\infty }^{\infty}x[k]z^{-k}$
在这里插入图片描述

Poles and Zeros 极点和零点

线性滤波器传递函数（由一般差分方程产生）可以写为 z 中两个多项式的比率：
$H[z]=\frac{P[z]}{Q[z]}$
P[z]=0 的 z 值称为 H[z] 的零点
Q[z]=0 的 z 值称为 H[z] 的极点
极点对应于滤波器传递函数趋于无穷大的频率（即resonances共振）
零点对应于滤波器传递函数趋于零的频率（即anti-resonances反共振）
一个滤波器的特征完全在于其极点和零点
z 域多项式通常用zi的极点和零点来写
$P[z]=\prod_{i=1}^{p}(z-z_{i})$
$Q[z]=\prod_{i=1}^{q}(z-z_{i})$