提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
一、声音的由来
声音是一种波,由物体振动产生的,必须通过介质传播(固、液、气)。通常是人们听的到语音是由空气传播的,是一种纵波,传播的方向和震动的方向一致。
人发音的过程:
气流(由肺部排排出)
↓
声带(气流通过声门时对声带所造成的冲击)
↓
声道(包括喉咙、咽头、口腔、鼻腔等,通过改变声道的形状,调制出各种不同的声音)
人听到语音的过程:
空气传播 → 入耳 → 鼓膜获取 → 传递给小骨 → 耳蜗 → 转换为神经电信号 → 传送大脑的中枢听觉系统
二、声学基础
1.正弦波
1.正弦波
其中t为时间;f为频率;A为振幅;2Πft+为相位,
为初始相位
2.周期T
周期T指的是重复周期的最短时间,单位为秒(s)
3.频率f
频率f指波形在每秒里有多少循环,频率的单位为赫兹(Hz),周期为频率的倒数:T=1/f
4.角频率
角频率 =2Πf=2Π/T,单位为弧度每秒(rad/s)
5.余弦波
与正弦波相差四分之一周期
2.频谱图
1.频谱:任意复杂的周期函数,通过傅里叶变换,都可以表示为一系列不同频率的正弦波和余弦波之和。
傅里叶变换据具体细节?
2.频谱图:复杂的波形图可以分解为许多个正弦波叠加。频谱图的横轴为这些正弦波分量的频率,纵轴为正弦波分量的振幅,但实际应用中,频谱图的纵轴通常不是振幅,而是声压,功率等其他物理量。
图 两个正弦波叠加而成的波形——第一个正弦波频率为5Hz,振幅为2;第二个正弦波频率为50Hz,振幅为1
↓
图 频谱图
三、人类的听觉
1.基频F0
①基音:一种主观心理量,人耳感受到声音的高低。对应的物理量为基频(F0),通常对应的是说话的人在说话时,声带振动的频率,也就是声带每开启与笔画和一次的时间的倒数。
②基音轨迹:横轴为时间,纵轴为基频。随着时间的变化,信号的基频本身也可能出现变化,一半基音轨迹与汉语的声调有关。
第一声——阴平——对应的轨迹:-
第二声——阳平——对应的轨迹:/
第三声——上声——对应的轨迹:∨
第四声——去声——对应的轨迹:\
③共振峰:固有频率会随着声道形状与尺寸的变化而变化,语音信号产生的共振的频率叫做共振峰。
通常前两个共振峰(F1&F2)与元音的舌位有关系,F1为元音舌位的高低;F2为元音舌位的前后,如图 所示
2.声强
①响度:一种主观心理量,人耳感受到声音的大小。对应的物理量为声强。
假如周期为T的信号可以表示为y=f(t)
功率
②声强的两种定义
····
声强可以理解为单位面积上的声音功率,通过对数函数定义,假设人耳能听到的声音最小功率为Po,那声强LdB可以定义为——
,单位为分贝,dB
····
声强也通过声音所产生的气压来定义
,其中分子是声压的均方根,分母是人耳能听到的声音的最小声压,一半是20微帕,分母也称为听阀,表示人耳听觉的阈值
四、听觉的分线性
对频率感知的非线性,对声强感知的非线性,好的音频信号处理系统需要考虑这两方面。
1.巴克刻度(离散)
关于巴克刻度:描述人耳对于频率感知的非线性,人耳听见的频率分为24个频率群,每个频率都有其对应的中间频率、截止频率、带宽来确定,如图所示
在频率刻度上,听觉系统频率1000Hz与2000Hz之间的距离,与频率2000Hz与3000Hz之间的距离,都是1000Hz,但是对于听觉系统来说会认为1000Hz与2000Hz之间差距更大。巴克刻度可以解决这个问题,例如9巴克到13巴克之间与13巴克到17巴克之间,都是相差了4巴克,听觉系统也会认为这两个差距大致相同,巴克的近似计算法:
,f为频率
常见应用于计算感知线性编码特征时,使用关键频带分析
2.梅尔刻度 (连续)
梅尔刻度连续严格单调递增
频率f与梅尔m之间的换算公式
3.音频信号概念
模拟转数字
1.采样:
*按照固定的频率,对模拟信号的振幅进行取值,这个频率就叫做采样,单位为Hz,表示每秒钟内所取得的采样的个数
*如果准确的度量信号,则需要在每个周期进行至少两次采样:对波峰和波谷各采取一次
*给定一个采样率,我们所能重建的周期信号的频率是该采样率的一半,这个频率是奈奎斯特频率
*越高的采样率有越大的计算量、存储量及网络传输数据量,所以不推荐过高的采样率
*通常为16000Hz的采样率,CD采样率为44100Hz,DVD为48000Hz
频率为20Hz的正弦信号,对信号采取40Hz的离线信号;对信号采取120Hz的离线信号;对信号采取25Hz的离线信号;
2.量化
为了保存和传输采样的数值,将其表示为整数,所以在将实数域的振幅值转换为整数时,会损失一定的精度,这个过程叫做量化
量化的精度:等于相邻两个整数所表示的实数的差值——如果两个实数之间的差距小于这个差值,它便会被量化为同一个整数
现在通常是16000Hz,16位量化
↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑
将连续的音频转换为离散的整数序列
音频编码
将音频信号转换为二进制字节→编码;
将二进制字节转换为音频信号→解码;
1.线性脉冲编码(linearPCM)
含义:直接将采样过后得到的振幅进行量化,且量化的时候相邻整数所表示的信号的差值恒定
缺点:编码效率低
2.非线性脉冲编码
含义:低振幅采取较高精度,高振幅采取较低精度(理由:人耳的非线性);对信号的取值采取对数变换,编码的时候先将信号应用对数函数,再进行线性脉动编码,再解码的时候需要应用指数函数进行逆变换
两种常见的非线性脉冲编码,
(北美&日本)——
,对于8位编码来说,
=255
(中国&欧洲)——
,这里的A称作压缩系数,欧洲通常取值为A=87.6
如图 两种非线性变换的图像绘制出来十分接近,几乎重叠
3.自适应脉冲编码
4.差分脉冲编码与自适应差分脉冲编码
5.频域编码
音频格式
1.wav
2.常见格式
五、从信号到特征:短时分析
1.传统特征的不足
2.分帧
3.窗函数处理
4.帧叠加
5.帧采样
六、常用的音频特征
参考:
王泉.声纹技术[M],三河市君旺印务有限公司,2020:14-53