MP3技术解析-CSDN博客

mp3吧可不是什么凭空制造出来的词汇，而是一个技术术语的缩写，即MPEG-1 AudioLayer-3的缩写拼法，这是什么意思呢？我来给大家解读一下：MPEG-1 AudioLayer-3就是mpeg1类型国际标准技术协议中的音频部分第三层协议，它说明的是一种音频格式，是不是看起来很复杂？不要紧我们一点一点来说，首先mpeg——这个词是Moving Picture Exp-erts Group的缩写，就是动态影像压缩处理小组的意思。这个小组相当厉害，专门研究开发动态静态视频(包含音频)方面的几乎所有国际技术标准，我们看的从电视到电影，从vcd到dvd都应用他们的研究成果，mp3正是他们的mpeg1协议中的一部分，音频部分在第三层，所以称作mp3，据我所知mp3的诞生是mpeg小组的工作人员在非有意识的情况下发现的，它是作为一种cd音轨的抓取方式被产生出来的，在当时的试验中最多算个附属产物，可就是这个小小的附属产物却演化出了我们现今最最流行的音乐格式，那么是为什么呢？我们一起去看个究竟。

首先是体积小：根据不同的压缩比率可以得到大小不等的文件尺寸，但是比起原始的wav格式，体积那是要小了太多了，文件体积小，存储空间就小，用来播放的硬件设备体积、造价等方面就会显著下降，所以就有了良好的市场，在加上到处都有mp3文件的下载，比起cd播放器用户还要不停购买软件来，自然又是节约了一笔。再次：随心所欲，小体积的播放器可以轻松的随身携带，我爱怎么用就怎么用，而且因为播放器电路部分相对功耗低，所以单电池工作时间也长，省去了很多更换电池的烦恼，还有就是用家可以随意的把自己喜欢的曲子放在一起听，而不必受制于音像出版商的成型软件，自由度非常大，这让我想起了周杰伦给动感地带作广告的一句广告语“我的地盘，我作主！”真cool~~~！！

说了这么一堆相关的话一定让大家等急了，下来让我们深入主体，为大家彻底的剖析一下mp3的方方面面。

一、基础知识：

数字压缩音频与mp3技术：

要说mp3我得先说一下数字压缩音频，恩，数字压缩音频顾名思义就是压缩的数字音频了，可是什么是数字音频？什么是压缩呢？？？下面是一些较专业的解释，有兴趣的朋友可要仔细看啰~！

在计算机的数字世界中，声音都是以数字编码的方式储存的，不同于传统生活中的模拟音频，因为计算机只能记录0和1的数字，所以必须对模拟音频进行量化取样，根据奈魁斯特(NYQUIST)采样定理，用两倍于一个正弦波的频繁率进行采样就能完全真实地还原该波形，因此一个数码录音波的采样频率直接关系到它的最高还原频率指标。例如，用44.1KHZ的采样频率进行采样，则可还原最高为22.05KHZ的频率-----这个值略高于人耳的听觉极限，所以a/d转换通常都使用44.1KHZ 以上的采样频率，但是声波资料的文件大小因取样频率(一般以Hz为单位)和取样的比率(一般以bits为单位)而有所不同，取样频率越高所需要的储存空间也越大，取样相同的比率越高所需要的储存空间也越大，这就造成了在实际操作中的困难，从而压缩技术的出现就变成了必然。

数字压缩就是指对已经进行完成采样的原始数字音频文件进行“减肥”，利用一些有效的算法和方式，将文件中的冗余信息取出，这样可以减少体积，方便使用，具体的操作过成太过复杂和专业(连我这个学计算数学的都看着费劲)，所以就不一一给大家解释了，只在这里简要说明一下压缩中要牵扯的MP3压缩编码技术：MP3压缩编码使用了5种重要的技术：最小听觉门限判定(Minimal Audition Threshold)、掩蔽效应(Masking Effect)、位储存槽(Reservoir of Bytes)、联合立体声(JointStereo)和霍夫曼编码(Huffman Code)。依靠这些技术科计算机的计算，我们就能够大大的降低数字音频的文件尺寸，将其压缩后产生的新的音频格式就是我们熟悉的mp3。

二、压缩原理：

不论什么技术它都要有自己的道理，音频技术更是如此，因为它直接关系到我们的听觉，压缩过的mp3为什么听起来还是很接近cd的声音呢？？这里面和人的生理构造有莫大的关系。实验表明，人类能听到的声音频率范围(音频)是20Hz～20kHz，但人耳对整个音频频段声音的反应不是平直的，2～5kHz是人耳最灵敏的频段。依其特性将整个音频频段分成多个临界频带，因为人类听觉系统是依据频率来分辨声音能量的，任何频率的细小声音都会因掩蔽效应而被临界频带内音量较高的声音所覆盖。MP3对其不作量化处理，从而去掉那些人类听觉系统所无法察觉的声音，达到压缩的目的。可见，MP3是一种有损的音频压缩编码。所以说无论多么高码率的mp3它都是有损压缩，声音的品质是比cd下降了的，但是下降的多少才能被接受，这就因人而异了。

三、压缩后的音质：

这是大家最最关心的话题吧，压缩后的声音能达到一个什么样的标准呢？这里先给大家上个图表，来看看mpeg的标准中的参考值。

可以看出，由于压缩比率不同，得到的声音文件的质量也在逐步提高，128kbps基本就达到了cd音质，是这样的么？？？我得回答是：当然不是，这只是一个官方的参考数据表格，在实际的使用中，128这样的码率是根本不能表现出cd的声音质量的，虽然mp3的压缩过程中使用的软件算法不同会有些差异，但是压缩比率是限制其表现的最根本之处。

市面上不仅仅是只有lame这一种压缩软件的，也不是只有mp3一种音频压缩格式的，其他公司也先后开发过不少好用的压缩格式，只是因为各种各样的原因没有像mp3这样推广开来，但是作为压缩音频家族的一员，我在这里也给大家介绍一下，可以让大家多了解一些东西。

1、 APE:

APE格式：Monkey""s Audio([url=]www.monkeysaudio.com[/url])，简单的说ape是一种音频的无损压缩格式，大小只有wav文件的一半，但是音质没有丝毫降低。能够在最大程度上还原CD的音质，当然这也取决于抓轨的质量。如果抓轨的质量好，ape的音质就会和CD差不多这是mp3等有损压缩无法达到的，当然无损的代价就是体积的增大，1CD从200mb到400不等所以如果有足够的带宽的保证，ape给网友交流CD带来了更多的方便，解决了许多古典音乐爱好者传送高音质CD的需求。一张80分钟的音乐CD大小大约700M，这么大尺寸的传输，显然是非常不方便的，这时用Monkey""s Audio—能把WAV文件压缩成一半大小(甚至更小)的APE文档，并且在理想状态下，当你把APE解压成WAV，音质没有丝毫损失。

优点：压缩率高；音质无损；装载插件后，可以用Winamp直接播放，音质比任何参数的Mp3或Mp3 Pro更好。

缺点：压缩及解压时间过长。

2、 MP3 Pro

为了减低失真程度，MP3 Pro这种新MP3格式出现了。它将整个音频频段分离成中低频和高频两个信道，由传统MP3编码器负责中低频部分，而另一个采用SBR技术的(Spectral Band Replication/频段复制)的译码器则负责高频部分，最后两者在MP3 Pro播放软件中同时播放，从而得到显著超过相同Bitrate的MP3之音质。不但高频细节丰富，颤抖的现象亦已不易觉察，与原始WAV文件非常接近。

MP3 Pro采用的SBR技术，并非直接将音乐中的高频分离出来并编码那么简单，而是根据对原来编码器所传输的低频讯号进行分析，从而重新构建出高频讯号。

3、Real Audio

Real Audio，扩展名RA：这种格式真可谓是网络的灵魂，强大的压缩量和极小的失真使其在众多格式中脱颖而出。和MP3相同，它也是为了解决网络传输带宽资源而设计的，因此主要目标是压缩比和容错性，其次才是音质。所以我们一般在网上遇到的新音乐试听都是使用这中格式的。

3、 WMA

WMA就是Windows Media Audio编码后的文件格式，由微软开发，WMA针对的不是单机市场，是网络！竞争对手就是网络媒体市场中著名的Real Networks。微软声称，在只有64kbps的码率情况下，WMA可以达到接近CD的音质。和以往的编码不同，WMA支持防复制功能，她支持通过Windows Media Rights Manager 加入保护，可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术，即一边读一边播放，因此WMA可以很轻松的实现在线广播，由于是微软的杰作，因此，微软在Windows中加入了对WMA的支持，WMA有着优秀的技术特征，在微软的大力推广下，这种格式被越来越多的人所接受。比起ra来说，版权恐怕是所用用户最讨厌它的地方了。

4、 ACC：

AAC(高级音频编码技术，Advanced Audio Coding)是杜比实验室为音乐社区提供的技术。AAC号称「最大能容纳48通道的音轨，采样率达96 KHz，并且在320Kbps的数据速率下能为5.1声道音乐节目提供相当于ITU-R广播的品质」。和MP3比起来，它的音质比较好，也能够节省大约30%的储存空间与带宽。它是遵循MPEG-2的规格所开发的技术。松下的mp3产品都采用了这种编码方式，当然也兼容mp3格式，我自己使用时发现aac是非常好用的音频格式，128kbps的aac足以和224kbps的mp3抗衡，空间却小了差不多一半，但是在空间上和结构上aac和mp3编码出来后的风格不太一样，喜欢与否属于仁者见仁智者见智的事情。

5、 ATRAC 3/ATRAC 3 plus：

ATRAC3(AdaptiveTransformAcousticCoding3)由日本索尼公司开发，是MD所采用的ATRAC的升级版，其压缩率(约为ATRAC的2倍)和音质均与MP3相当。压缩原理包括同时掩蔽、时效掩蔽和等响度曲线等，与MP3大致相同。ATRAC3的版权保护功能采用的是OpenMG。目前，对应ATRAC3的便携式播放机主要是索尼公司自己的产品。不过，该公司已于2000年2月与富士通、日立、NEC、Rohm、三洋和TI等半导体制造商签署了制造并销售ATRAC3用LSI的专利许可协议。在mdlp压缩中录制cd和mp3相比，ATRAC3还是有一定的声音优势的，但是版权问题使得使用不是很方便，ATRAC 3 plus由于算法先进，在音质上得到了更一步的提高，但是只在sony的产品上有比较广泛的应用，这个让人比较郁闷。

6、 VQF：

所谓VQF，是指TwinVQ(Transform-domain Weighted INterleave Vector Quantization)，它是日本NTT(Nippon Telegraph and Telephone)集团属下的NTT Human Interface Laboratories开发的一种音频压缩技术。该技术受到著名的YAMAHA公司的支持。VQF是其文件的扩展名。它和MP3的实现方法相似，都是通过采用有失真的算法来将声音进行压缩，不过它与MP3的压缩技术相比却有着本质上的不同：VQF的目的是对音乐而不是声音进行压缩，因此，VQF所采用的是一种称为“矢量化编码(Vector Quantization)”的压缩技术。该技术先将音频数据矢量化，然后对音频波形中相类似的波形部分统一与平滑化，并强化突出人耳敏感的部分，最后对处理后的矢量数据标量化再进行压缩而成。我自己使用中感觉在低码率情况下，还是vqf好用很多，比同等音质的mp3体积小30%左右，但是高比特率就不太好了，所以也少有人使用它。

1、声音是模拟的，做到计算机里就是用数字的方式来还原模拟世界。
2.44khz这样的频率指的是采样率，采样就是取样，为了尽可能的和原样像就要尽可能多的采样，越多越接近原貌，比如44。1khz就比22.05精细一倍。
3码率我也不太明白，就是越大越好啊。
其实现在要得到比较好的音质，44khz，与320kbps的压缩比就很爽了。只要你不嫌占地方。

MP3是什么