搞语音的有关音频的基础知识

笑笑路边的野马

已于 2022-11-29 18:35:26 修改

阅读量2.1k

点赞数 2

分类专栏：音频知识文章标签：人工智能

于 2022-11-24 12:43:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaocwdtl/article/details/128015825

版权

音频知识专栏收录该内容

1 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

一、声音的由来

声音是一种波，由物体振动产生的，必须通过介质传播（固、液、气）。通常是人们听的到语音是由空气传播的，是一种纵波，传播的方向和震动的方向一致。

人发音的过程：

气流（由肺部排排出）

↓

声带（气流通过声门时对声带所造成的冲击）

↓

声道（包括喉咙、咽头、口腔、鼻腔等，通过改变声道的形状，调制出各种不同的声音）

人听到语音的过程：

空气传播 → 入耳 → 鼓膜获取 → 传递给小骨 → 耳蜗 → 转换为神经电信号 → 传送大脑的中枢听觉系统

二、声学基础

1.正弦波

1.正弦波

$y=Asin(2\pi ft+\phi )$

其中t为时间；f为频率；A为振幅；2Πft+ $\phi$ 为相位， $\phi$ 为初始相位

2.周期T

周期T指的是重复周期的最短时间，单位为秒（s）

3.频率f

频率f指波形在每秒里有多少循环，频率的单位为赫兹（Hz），周期为频率的倒数：T=1/f

4.角频率 $\omega$

角频率 $\omega$ =2Πf=2Π/T，单位为弧度每秒（rad/s）

5.余弦波

与正弦波相差四分之一周期

2.频谱图

1.频谱：任意复杂的周期函数，通过傅里叶变换，都可以表示为一系列不同频率的正弦波和余弦波之和。

傅里叶变换据具体细节？

2.频谱图：复杂的波形图可以分解为许多个正弦波叠加。频谱图的横轴为这些正弦波分量的频率，纵轴为正弦波分量的振幅，但实际应用中，频谱图的纵轴通常不是振幅，而是声压，功率等其他物理量。

图两个正弦波叠加而成的波形——第一个正弦波频率为5Hz，振幅为2；第二个正弦波频率为50Hz，振幅为1

↓

图频谱图

三、人类的听觉

1.基频F0

①基音：一种主观心理量，人耳感受到声音的高低。对应的物理量为基频（F0），通常对应的是说话的人在说话时，声带振动的频率，也就是声带每开启与笔画和一次的时间的倒数。

②基音轨迹：横轴为时间，纵轴为基频。随着时间的变化，信号的基频本身也可能出现变化，一半基音轨迹与汉语的声调有关。

第一声——阴平——对应的轨迹：-

第二声——阳平——对应的轨迹：/

第三声——上声——对应的轨迹：∨

第四声——去声——对应的轨迹：\

③共振峰：固有频率会随着声道形状与尺寸的变化而变化，语音信号产生的共振的频率叫做共振峰。

通常前两个共振峰（F1&F2）与元音的舌位有关系，F1为元音舌位的高低；F2为元音舌位的前后，如图所示

2.声强

①响度：一种主观心理量，人耳感受到声音的大小。对应的物理量为声强。

假如周期为T的信号可以表示为y=f(t)

功率 $P=\frac{1}{T}\int_{0}^{T}(f(t))^2dt$

②声强的两种定义

····

声强可以理解为单位面积上的声音功率，通过对数函数定义，假设人耳能听到的声音最小功率为Po，那声强LdB可以定义为——

$L_{dB}=10log_{10}(\frac{P}{Po})$ ,单位为分贝，dB

····

声强也通过声音所产生的气压来定义

$L_{dB}=20log_{10}(\frac{p_{rms}}{p_{ref}})$ ,其中分子是声压的均方根，分母是人耳能听到的声音的最小声压，一半是20微帕，分母也称为听阀，表示人耳听觉的阈值

四、听觉的分线性

对频率感知的非线性，对声强感知的非线性，好的音频信号处理系统需要考虑这两方面。

1.巴克刻度（离散）

关于巴克刻度：描述人耳对于频率感知的非线性，人耳听见的频率分为24个频率群，每个频率都有其对应的中间频率、截止频率、带宽来确定，如图所示

在频率刻度上，听觉系统频率1000Hz与2000Hz之间的距离，与频率2000Hz与3000Hz之间的距离，都是1000Hz，但是对于听觉系统来说会认为1000Hz与2000Hz之间差距更大。巴克刻度可以解决这个问题，例如9巴克到13巴克之间与13巴克到17巴克之间，都是相差了4巴克，听觉系统也会认为这两个差距大致相同，巴克的近似计算法：

$1Bark=\left\{\begin{matrix} f/100f\leqslant 500Hz & & \\ 9+4log_{2}(f/1000),f> 500Hz & & \end{matrix}\right.$ ，f为频率

常见应用于计算感知线性编码特征时，使用关键频带分析

2.梅尔刻度 (连续)

梅尔刻度连续严格单调递增

频率f与梅尔m之间的换算公式

$m=2595log_{10}(1+f/700)=1127ln(1+f/700)$

3.音频信号概念

模拟转数字

1.采样：

*按照固定的频率，对模拟信号的振幅进行取值，这个频率就叫做采样，单位为Hz，表示每秒钟内所取得的采样的个数

*如果准确的度量信号，则需要在每个周期进行至少两次采样：对波峰和波谷各采取一次

*给定一个采样率，我们所能重建的周期信号的频率是该采样率的一半，这个频率是奈奎斯特频率

*越高的采样率有越大的计算量、存储量及网络传输数据量，所以不推荐过高的采样率

*通常为16000Hz的采样率，CD采样率为44100Hz，DVD为48000Hz

频率为20Hz的正弦信号，对信号采取40Hz的离线信号；对信号采取120Hz的离线信号；对信号采取25Hz的离线信号；

2.量化

为了保存和传输采样的数值，将其表示为整数，所以在将实数域的振幅值转换为整数时，会损失一定的精度，这个过程叫做量化

量化的精度：等于相邻两个整数所表示的实数的差值——如果两个实数之间的差距小于这个差值，它便会被量化为同一个整数

现在通常是16000Hz，16位量化

↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑

将连续的音频转换为离散的整数序列

音频编码

将音频信号转换为二进制字节→编码；

将二进制字节转换为音频信号→解码；

1.线性脉冲编码（linearPCM）

含义：直接将采样过后得到的振幅进行量化，且量化的时候相邻整数所表示的信号的差值恒定

缺点：编码效率低

2.非线性脉冲编码

含义：低振幅采取较高精度，高振幅采取较低精度（理由：人耳的非线性）；对信号的取值采取对数变换，编码的时候先将信号应用对数函数，再进行线性脉动编码，再解码的时候需要应用指数函数进行逆变换

两种常见的非线性脉冲编码 $\mu -law$ ， $A-law$

$\mu -law$ (北美&日本)——

$F(x)=sgn(x)\frac{ln(1+\mu|x| )}{ln(1+\mu)}$ ,对于8位编码来说， $\mu$ =255

$A-law$ （中国&欧洲）——

$F(x)=sgn(x)\left\{\begin{matrix} \frac{A|x|}{1+lnA} & |x|<\frac{1}{A} & \\ \frac{1+ln(A|x|)}{1+lnA}& \frac{1}{A} \leq |x|\leq1& \\ \end{matrix}\right.$ ，这里的A称作压缩系数，欧洲通常取值为A=87.6

如图两种非线性变换的图像绘制出来十分接近，几乎重叠

3.自适应脉冲编码

4.差分脉冲编码与自适应差分脉冲编码

5.频域编码

音频格式

1.wav

2.常见格式

五、从信号到特征：短时分析

1.传统特征的不足

2.分帧

3.窗函数处理

4.帧叠加

5.帧采样

六、常用的音频特征

参考：

王泉．声纹技术[M]，三河市君旺印务有限公司，2020：14-53

笑笑路边的野马

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
搞语音的有关音频的基础知识

采样频率（HZ）：也叫采样速度或者采样频率，是每秒从连续信号中提取并组成离散信号的采样个数，采样率越高声音越自然；采样时间(ms）：采样频率的倒数，指每秒采集多少个信号样本；为什么要除以1000？答：1s=1000ms。帧数：帧数=采样率*帧长/1000。帧率（HZ)：每秒显示的帧数。
复制链接

扫一扫

专栏目录

笑笑路边的野马 CSDN认证博客专家 CSDN认证企业博客

码龄5年

3: 原创

167万+: 周排名

31万+: 总排名

2643: 访问

: 等级

37: 积分

1: 粉丝

4: 获赞

1: 评论

7: 收藏

私信

关注

热门文章

分类专栏

linux服务器问题 1篇
音频知识 1篇

最新评论

记录一下学渣惨淡小论文投稿经历end
CSDN-Ada助手: 非常感谢您分享您的投稿经历！尽管遇到了一些挫折，但您仍然坚持不懈地努力，这是非常值得称赞的。继续保持创作的热情和毅力，相信您一定会取得更好的成果。除了投稿经验，我想分享一些与博文相关的扩展知识和技能。对于学术投稿来说，除了内容的质量，写作技巧也非常重要。您可以学习如何撰写清晰、准确、逻辑严谨的论文，包括合理组织结构、有效使用引用和参考文献等。此外，提前了解目标期刊的投稿要求和风格也是很有帮助的。另外，了解学术圈的动态和趋势也可以提升您的投稿成功率。关注相关领域的学术会议和期刊，参加学术讨论和研讨会，与同行交流和合作，这些都有助于拓宽视野、增加合作机会和提升学术影响力。希望这些扩展知识和技能对您有所帮助！再次鼓励您坚持创作，并期待您未来的博文成果！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。