搞语音的有关音频的基础知识

 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言


一、声音的由来

声音是一种波,由物体振动产生的,必须通过介质传播(固、液、气)。通常是人们听的到语音是由空气传播的,是一种纵波,传播的方向和震动的方向一致。

人发音的过程:

气流(由肺部排排出)

声带(气流通过声门时对声带所造成的冲击)

声道(包括喉咙、咽头、口腔、鼻腔等,通过改变声道的形状,调制出各种不同的声音)

人听到语音的过程:

空气传播 → 入耳 → 鼓膜获取 → 传递给小骨 → 耳蜗 → 转换为神经电信号 → 传送大脑的中枢听觉系统

二、声学基础

 1.正弦波 

1.正弦波

y=Asin(2\pi ft+\phi )

其中t为时间;f为频率;A为振幅;2Πft+\phi为相位,\phi为初始相位

2.周期T

周期T指的是重复周期的最短时间,单位为秒(s)

3.频率f

频率f指波形在每秒里有多少循环,频率的单位为赫兹(Hz),周期为频率的倒数:T=1/f

4.角频率\omega

角频率\omega =2Πf=2Π/T,单位为弧度每秒(rad/s) 

5.余弦波

与正弦波相差四分之一周期

 2.频谱图 

1.频谱:任意复杂的周期函数,通过傅里叶变换,都可以表示为一系列不同频率的正弦波和余弦波之和。

傅里叶变换据具体细节?

2.频谱图:复杂的波形图可以分解为许多个正弦波叠加。频谱图的横轴为这些正弦波分量的频率,纵轴为正弦波分量的振幅,但实际应用中,频谱图的纵轴通常不是振幅,而是声压,功率等其他物理量。

 图 两个正弦波叠加而成的波形——第一个正弦波频率为5Hz,振幅为2;第二个正弦波频率为50Hz,振幅为1

                                                                              ↓

 图 频谱图

三、人类的听觉

1.基频F0

 ①基音:一种主观心理量,人耳感受到声音的高低。对应的物理量为基频(F0),通常对应的是说话的人在说话时,声带振动的频率,也就是声带每开启与笔画和一次的时间的倒数。

②基音轨迹:横轴为时间,纵轴为基频。随着时间的变化,信号的基频本身也可能出现变化,一半基音轨迹与汉语的声调有关。

第一声——阴平——对应的轨迹:-

第二声——阳平——对应的轨迹:/

第三声——上声——对应的轨迹:∨

第四声——去声——对应的轨迹:\

③共振峰:固有频率会随着声道形状与尺寸的变化而变化,语音信号产生的共振的频率叫做共振峰。

通常前两个共振峰(F1&F2)与元音的舌位有关系,F1为元音舌位的高低;F2为元音舌位的前后,如图 所示

2.声强

①响度:一种主观心理量,人耳感受到声音的大小。对应的物理量为声强。

假如周期为T的信号可以表示为y=f(t)

功率    P=\frac{1}{T}\int_{0}^{T}(f(t))^2dt

②声强的两种定义

····

声强可以理解为单位面积上的声音功率,通过对数函数定义,假设人耳能听到的声音最小功率为Po,那声强LdB可以定义为——

L_{dB}=10log_{10}(\frac{P}{Po}),单位为分贝,dB

····

声强也通过声音所产生的气压来定义

L_{dB}=20log_{10}(\frac{p_{rms}}{p_{ref}}),其中分子是声压的均方根,分母是人耳能听到的声音的最小声压,一半是20微帕,分母也称为听阀,表示人耳听觉的阈值

四、听觉的分线性

对频率感知的非线性,对声强感知的非线性,好的音频信号处理系统需要考虑这两方面。

 1.巴克刻度(离散) 

关于巴克刻度:描述人耳对于频率感知的非线性,人耳听见的频率分为24个频率群,每个频率都有其对应的中间频率、截止频率、带宽来确定,如图所示

在频率刻度上,听觉系统频率1000Hz与2000Hz之间的距离,与频率2000Hz与3000Hz之间的距离,都是1000Hz,但是对于听觉系统来说会认为1000Hz与2000Hz之间差距更大。巴克刻度可以解决这个问题,例如9巴克到13巴克之间与13巴克到17巴克之间,都是相差了4巴克,听觉系统也会认为这两个差距大致相同,巴克的近似计算法:

1Bark=\left\{\begin{matrix} f/100f\leqslant 500Hz & & \\ 9+4log_{2}(f/1000),f> 500Hz & & \end{matrix}\right.,f为频率

常见应用于计算感知线性编码特征时,使用关键频带分析

 2.梅尔刻度 (连续)

梅尔刻度连续严格单调递增

频率f与梅尔m之间的换算公式

m=2595log_{10}(1+f/700)=1127ln(1+f/700)

 3.音频信号概念 

模拟转数字

1.采样:

*按照固定的频率,对模拟信号的振幅进行取值,这个频率就叫做采样,单位为Hz,表示每秒钟内所取得的采样的个数

*如果准确的度量信号,则需要在每个周期进行至少两次采样:对波峰和波谷各采取一次

*给定一个采样率,我们所能重建的周期信号的频率是该采样率的一半,这个频率是奈奎斯特频率

*越高的采样率有越大的计算量、存储量及网络传输数据量,所以不推荐过高的采样率

*通常为16000Hz的采样率,CD采样率为44100Hz,DVD为48000Hz

 频率为20Hz的正弦信号,对信号采取40Hz的离线信号;对信号采取120Hz的离线信号;对信号采取25Hz的离线信号;

2.量化

为了保存和传输采样的数值,将其表示为整数,所以在将实数域的振幅值转换为整数时,会损失一定的精度,这个过程叫做量化

量化的精度:等于相邻两个整数所表示的实数的差值——如果两个实数之间的差距小于这个差值,它便会被量化为同一个整数

现在通常是16000Hz,16位量化

↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑

将连续的音频转换为离散的整数序列


音频编码

将音频信号转换为二进制字节→编码;

将二进制字节转换为音频信号→解码;

1.线性脉冲编码(linearPCM)

含义:直接将采样过后得到的振幅进行量化,且量化的时候相邻整数所表示的信号的差值恒定

缺点:编码效率低

2.非线性脉冲编码

含义:低振幅采取较高精度,高振幅采取较低精度(理由:人耳的非线性);对信号的取值采取对数变换,编码的时候先将信号应用对数函数,再进行线性脉动编码,再解码的时候需要应用指数函数进行逆变换

两种常见的非线性脉冲编码\mu -lawA-law

\mu -law(北美&日本)——

F(x)=sgn(x)\frac{ln(1+\mu|x| )}{ln(1+\mu)},对于8位编码来说,\mu=255

A-law(中国&欧洲)——

F(x)=sgn(x)\left\{\begin{matrix} \frac{A|x|}{1+lnA} & |x|<\frac{1}{A} & \\ \frac{1+ln(A|x|)}{1+lnA}& \frac{1}{A} \leq |x|\leq1& \\ \end{matrix}\right.,这里的A称作压缩系数,欧洲通常取值为A=87.6

 

 如图 两种非线性变换的图像绘制出来十分接近,几乎重叠

 

 

 

 

3.自适应脉冲编码

4.差分脉冲编码与自适应差分脉冲编码

5.频域编码

 


音频格式

1.wav

2.常见格式

五、从信号到特征:短时分析

1.传统特征的不足

2.分帧

3.窗函数处理

4.帧叠加

5.帧采样

六、常用的音频特征


参考:

王泉.声纹技术[M],三河市君旺印务有限公司,2020:14-53

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值