音频基础知识

一直以来对音频没有一个整体的梳理,对音频的一些概念理解不是特别深。像分贝,采样率,采样深度等。

数字音频处理大多使用采样率和位深这两种技术直接存储音频数据。

脉冲编码调制(即 PCM)是最流行的数字音频技术(在使用光盘时较为普及)之一。
音频按设定的时间间隔进行采样,采样波在采样点的振幅使用样本的位深存储为数字值。

  • 线性 PCM在 CD 中使用 44100 Hz 的采样率,适合改编音乐;
  • 16000 Hz 的采样率更适合改编语音。
  • 交错模式
    • 数字音频信号存储的方式。数据以连续帧的方式存放,即首先记录帧1的左声道样本和右声道样本,再开始帧2的记录…
  • 非交错模式
    • 首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本。
采样率

根据 Nyquist-Shannon 定理,以数字形式采集的任何声波,采样率通常需要至少是其最高频率的两倍。
* 要表示人类听觉范围 (20-20000 Hz) 内的音频
* 数字音频格式必须至少每秒采样 40000 次,CD 音频使用 44100 Hz 的采样率,部分原因也在于此。

采样位深(也叫量化精度,采样深度,取样值,采样值)

就是将采样样本幅度量化。位深影响给定音频样本的动态范围。位深越高,表示的振幅越精确。如果在同一音频样本内有很多响亮和柔和的声音,则需要更大的位深才能正确表示这些声音。

动态范围就是音频系数记录与重放时最大不失真信号与系统本底噪声之比的对数值,单位是分贝。当进行频率采样时,较高的量化精度可以提供更多可能性的振幅值,从而产生更为大的振动范围,更高的信噪比,提高保真度。

  • 增高位深还会降低音频样本内的信噪比。
  • CD 音乐音频使用 16 位的位深。
  • DVD 音频使用 24 位的位深
  • 大多数电话设备使用 8 位的位深。
    (某些压缩技术可以补偿较小位深的不足,但往往会有损耗。)
  • 常见的16Bit(16比特),可以记录大概96分贝的动态范围,24Bit就大概是144dB。每位6dB
分贝

是量度两个相同单位之数量比例的单位,常用dB表示。

声学中,响度也是人耳可以听到的声音的响度(幅度)范围非常宽。假设人能够听到的最小声级(声音响度)别为1,最大的声级达到10的11次方,处理如此宽的声级范围非常不方便。
因此声音的响度单位通常采用对数标度,称为分贝。

  • 人的耳朵可以听到的声音频率范围大约是20~20000Hz,并且随着年龄和健康状况的变化而变化
  • 持续暴露在85分贝的噪音中会对人体造成危害。过度暴露在噪音中会对耳蜗中的毛细胞造成损伤。
  • 平日里正常说话的音量大约是40至60分贝,演唱会现场则是110至120分贝
  • 堵车时按喇叭产生的噪音为85分贝,摩托车的轰鸣声是95分贝,警笛声为120分贝,而枪支、烟花的爆炸声则高达150分贝。
声道数

即声音的通道的数目。常有单声道和立体声之分,单声道的声音只能使用一个喇叭发声(有的也处理成两个喇叭输出同一个声道的声音),立体声可以使两个喇叭都发声(一般左右声道有分工) ,更能感受到空间效果,当然还有更多的通道数。

音频为什么编码

音频由波形组成,包括不同频率和振幅的波的叠加。在数字媒体内表示这些波形,需要对波形进行采样。
* 其采样率需要(至少)可以表示您要复制的最高频率的声音;
* 同时还需要存储足够的位深,以表示声音样本中波形的适当振幅(响度和柔度)。
* 声音处理设备重建频率的能力称为其频率响应,创造适当响度和柔度的能力称为其动态范围。这些术语通常统称为声音设备的保真度

常见音频格式

  • wav
  • flac
  • m4a
  • ape
  • wma
  • ra

常见音频编码压缩算法

音频编码分类
  • 波形编码:
    • 原理:它只对语音信号进行采样和量化处理。
    • 优点:编码方法简单,延迟时间短,音质高,重构的语音信号与原始语音信号几乎没有差别
    • 缺点:编码速率比较高(64 kbit/s),对传输通道的错误比较敏感。
    • 最简单的波形编码方法是PCM(Pulse Code Modulation,脉冲编码调制)
  • 参数编码:
    • 原理:从语音波形信号中提取生成语音的参数,使用这些参数通过语音生成模型重构出语音,使重构的语音信号尽可能地保持原始语音信号的语意。
    • 优点:编码速率较低,可以达到2.4 kbit/s
    • 缺点:与原始语音信号的波形可能会存在较大的区别、失真会比较大。
    • 典型的参数编码方法为LPC(Linear Predictive Coding,线性预测编码
  • 混合编码
    • 克服了原有波形编码与参数编码的弱点, 并且结合了波形编码的高质量和参数编码的低数据率, 取得了比较好的效果。

音频编码技术比较

在这里插入图片描述
说明:质量评价共五个等级(1、2、3、4、5),其中5.0为最高分。

上表中各种算法、应用领域中缩略语的中文和英文全称参见下面说明。

  • PCM:Pulse Code Modulation,脉冲编码调制。
  • ADPCM:Adaptive Differential Pulse Code Modulation,自适应差分脉冲编码调制。
  • SB-ADPCM:Subband Adaptive Differential Pulse Code Modulation,子带-自适应差分脉冲编码调制。
  • LPC:Linear Predictive Coding,线性预测编码。
  • CELPC:Code Excited Linear Predictive Coding,码激励线性预测编码。
  • VSELPC:Vector Sum Excited Linear Predictive Coding,矢量和激励线性预测编码。
  • RPE-LTP:Regular Pulse Excited-Long Term Predictive,规则脉冲激励长时预测。
  • LD-CELP:Low Delay-Code Excited Linear Predictive,低时延码激励线性预测。
  • MPE:Multi-Pulse Excited,多脉冲激励。
  • PSTN:Public Switched Telephone Network,公共交换电话网。
  • ISDN:Integrated Services Digital Network,综合业务数字网。

音频编解码技术分为5大技术,EQTPM,E,熵编码,Q,量化编码,T,变换编码,P,预测编码,M,音频建模(感知建模,BCC建模,正弦建模等)

常见音频处理软件

相关书籍

语音编解码书籍
  • 《语音处理技术》,《语音编码》,《低码率音频编码》,
  • 《数字语音编码原理》,《变速率语音编码》《低速率语音编码》
  • 《数字语音编码》《数据压缩》。
  • 《JPEG2000 图像压缩基础》

理论基础书籍

  • 《信息论与编码》
  • 《信号与系统》
国外的宽音频编码书籍
  • ANDREAS SPANIAS的《Audio Signal Processing and Coding 》。以及他的63页的论文,《Perceptual Coding of Digital Audio》。
  • MP3之父——K. Brandenburg的:
    • Applications of Digital Signal Processing to Audio and Acoustics》
    • 《A Digital Signal Processing Primer, with Applications to Digital Audio and Computer Music》
    • 《Auditory Perception and the MPEG Audio Standard》
    • 《Foundation and Evolution of Standardized Coders (Wiley,2003)(ISBN 0471373125)(578s)》
  • 汉堡联邦国防军大学Udo Zolzer教授的:
    • 《Digital Audio Signal Processing》
    • 《High-Fidelity Multichannel Audio Coding》
    • 《Speech Coding Algorithms》
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值