FFmpeg的音频处理详解

一、基本概念
1. 音频简介
数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的,

实现这个步骤使用的设备是模/数转换器(A/D)它以每秒上万次的速率对声波进行采样,

每一次采样都记录下了原始模拟声波在某一时刻的状态,称之为样本。

将一串的样本连接起来,就可以描述一段声波了,把每一秒钟所采样的数目称为采样频率或采率,单位为HZ(赫兹)。

采样频率越高所能描述的声波频率就越高。

采样率决定声音频率的范围(相当于音调),可以用数字波形表示。

以波形表示的频率范围通常被称为带宽。

要正确理解音频采样可以分为采样的位数和采样的频率。

1.1 采样的位数
采样位数可以理解为采集卡处理声音的解析度。这个数值越大,解析度就越高,录制和回放的声音就越真实。

我们首先要知道:电脑中的声音文件是用数字0和1来表示的。

连续的模拟信号(加窗截断)按一定的采样频率经数码脉冲取样后,每一个离散的脉冲信号被以一定的量化精度量化成一串二进制编码流,

这串编码流的位数即为采样位数,也称为量化精度。

从码率的计算公式中可以清楚的看出码率和采样位数的关系:

码率=取样频率×量化精度×声道数。

在电脑上录音的本质就是把模拟声音信号转换成数字信号。

反之,在播放时则是把数字信号还原成模拟声音信号输出。

采集卡的位是指采集卡在采集和播放声音文件时所使用数字声音信号的二进制位数。

采集卡的位客观地反映了数字声音信号对输入声音信号描述的准确程度。

8位代表2的8次方--256,16位则代表2的16次方--64K。

比较一下,一段相同的音乐信息,16位声卡能把它分为64K个精度单位进行处理,而8位声卡只能处理256个精度单位。

8位采样的差别在于动态范围(维基百科:动态范围(英语:dynamic range)是可变化信号(例如声音或光)最大值和最小值的比值。

也可以用以10为底的对数(分贝)或以2为底的对数表示。)的宽窄,动态范围宽广,音量起伏的大小变化就能够更精细的被记录下来,

如此一来不论是细微的声音或是强烈的动感震撼,都可以表现的淋漓尽致,而CD音质的采样规格正式16位采样的规格。

16位二进制数的最小值是0000000000000000,最大值是1111111111111111,

对应的十进制数就是0和65535,也就是最大和最小值之间的差值是65535,

也就是说,它量化的模拟量的动态范围可以差65535,也就是96.32分贝,

所以,量化精度只和动态范围有关,和频率响应没关系。

动态范围定在96分贝也是有道理的,人耳的无痛苦极限声压是90分贝,96分贝的动态范围在普通应用中足够使用,

所以96分贝动态范围内的模拟波,经量化后,不会产生削波失真的。

声音的位数就相当于画面的颜色数,表示每个取样的数据量,当然数据量越大,回放的声音越准确,

不至于把开水壶的叫声和火车的鸣笛混淆。

同样的道理,对于画面来说就是更清晰和准确,不至于把血和西红柿酱混淆。

不过受人的器官的机能限制,16位的声音和24位的画面基本已经是普通人类的极限了,更高位数就只能靠仪器才能分辨出来了。

比如电话就是3kHZ取样的7位声音,而CD是44.1kHZ取样的16位声音,所以CD就比电话更清楚。

如今市面上所有的主流产品都是16位的采集卡,而并非有些无知商家所鼓吹的64位乃至128位,

他们将采集卡的复音概念与采样位数概念混淆在了一起。

如今功能最为强大的采集卡系列采用的EMU10K1芯片虽然号称可以达到32位,

但是它只是建立在Direct Sound加速基础上的一种多音频流技术,其本质还是一块16位的声卡。

应该说16位的采样精度对于电脑多媒体音频而言已经绰绰有余了。

很多人都说,就算从原版CD抓轨,再刻录成CD,重放的音质也是不一样的,这个也是有道理的

,那么,既然0101这样的二进数是完全克隆的,重放怎么会不一样呢?

那是因为,时基问题造成的数模互换时的差别,并非是克隆过来的二进制数变了,

二进制数一个也没变,时基误差不一样,数模转换后的模拟波的频率和源相比就会有不一样。

1.2 采样的频率
采样频率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。

在当今的主流采集卡上,采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级,

22.05 KHz只能达到FM广播的声音品质,

44.1KHz则是理论上的CD音质界限,

48KHz则更加精确一些。

对于高于48KHz的采样频率人耳已无法辨别出来了,所以在电脑上没有多少使用价值。

5kHz的采样率仅能达到人们讲话的声音质量。

11kHz的采样率是播放小段声音的最低标准,是CD音质的四分之一。

22kHz采样率的声音可以达到CD音质的一半,目前大多数网站都选用这样的采样率。

44kHz的采样率是标准的CD音质,可以达到很好的听觉效果。

采样率类似于动态影像的帧数,

比如电影的采样率是24赫兹,PAL制式的采样率是25赫兹,NTSC制式的采样率是30赫兹。

当我们把采样到的一个个静止画面再以采样率同样的速度回放时,看到的就是连续的画面。

同样的道理,把以44.1kHZ采样率记录的CD以同样的速率播放时,就能听到连续的声音。

显然,这个采样率越高,听到的声音和看到的图像就越连贯。

当然,人的听觉和视觉器官能分辨的采样率是有限的。

对同一段声音,用20kHz和44.1kHz来采样,重放时,可能可以听出其中的差别,

而基本上高于44.1kHZ采样的声音,比如说96kHz采样,绝大部分人已经觉察不到两种采样出来的声音的分别了。

之所以使用44.1kHZ这个数值是因为经过了反复实验,人们发现这个采样精度最合适,

低于这个值就会有较明显的损失,而高于这个值人的耳朵已经很难分辨,而且增大了数字音频所占用的空间。

一般为了达到“万分精确”,我们还会使用48k甚至96k的采样精度,

实际上,96k采样精度和44.1k采样精度的区别绝对不会象44.1k和22k那样区别如此之大,我们所使用的CD的采样标准就是44.1k。

1.3 位速
位速是指在一个数据流中每秒钟能通过的信息量。

您可能看到过音频文件用 “128–Kbps MP3” 或 “64–Kbps WMA” 进行描述的情形。

Kbps 表示 “每秒千位数”,因此数值越大表示数据越多:

128–Kbps MP3 音频文件包含的数据量是 64–Kbps WMA 文件的两倍,并占用两倍的空间。

(不过在这种情况下,这两种文件听起来没什么两样。

原因是什么呢?有些文件格式比其他文件能够更有效地利用数据, 64–Kbps WMA 文件的音质与 128–Kbps MP3 的音质相同。)

需要了解的重要一点是,位速越高,信息量越大,对这些信息进行解码的处理量就越大,文件需要占用的空间也就越多。

为项目选择适当的位速取决于播放目标:

如果您想把制作的 VCD 放在 DVD 播放器上播放,那么视频必须是 1150 Kbps,音频必须是 224 Kbps。

典型的 206 MHz Pocket PC 支持的 MPEG 视频可达到 400 Kbps—超过这个限度播放时就会出现异常。

 文章最后可以领取免费音视频学习资料包

1.4 VBR
VBR(Variable Bitrate)动态比特率。

也就是没有固定的比特率,压缩软件在压缩时根据音频数据即时确定使用什么比特率。

这是Xing发展的算法,他们将一首歌的复杂部分用高Bitrate编码,简单部分用低Bitrate编码。

主意虽然不错,可惜Xing编码器的VBR算法很差,音质与CBR相去甚远。

幸运的是, Lame完美地优化了VBR算法,使之成为MP3的最佳编码模式。这是以质量为前提兼顾文件大小的方式,推荐编码模式。

ABR(Average Bitrate)平均比特率,是VBR的一种插值参数。

Lame针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。

ABR也被称为“Safe VBR”,它是在指定的平均Bitrate内,以每50帧(30帧约1秒)为一段,低频和不敏感频率使用相对低的流量,高频和大动态表现时使用高流量。

举例来说,当指定用192kbps ABR对

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值