【数据压缩】实验:MPEG音频编码

本文介绍了MPEG音频编码的基本原理,包括感知音频编码的思路,详细阐述了心理声学模型及其作用,以及编码器的重要模块如多项滤波器组和码率分配。通过心理声学模型计算掩蔽阈值,实现信号量化和编码,以减少无法被感知的信号部分,达到数据压缩的目的。
摘要由CSDN通过智能技术生成

感知音频编码原理

基本思想:分析信号,去掉不能被人耳感知的部分。

人耳听觉系统大致等效于一个在0Hz到20KHz频率范围内由25个重叠的带通滤波器组成的滤波器组。500Hz以下每个临界频带的带宽大约是100Hz,从500Hz起,临界频带带宽线性增加。

整体框架:输入声音信号经过一个多相滤波器组,变换到多个子带。同时经过心理声学模型计算以频率为自变量的噪声掩蔽阈值。量化和编码部分用信掩比SMR决定分配给子带信号的量化位数,使量化噪声<掩蔽阈值。最后通过数据帧包装将量化的子带样本和其他数据按照规定的帧格式组装成比特数据流

时-频分析的矛盾

在傅里叶变换过程中,窗的长度决定频谱图的时间分辨率和频率分辨率,窗长越长,截取的信号越长,傅里叶变换后频率分辨率越高,时间分辨率越低;相反,窗长越短,截取的信号就越短,频率分辨率越低,时间分辨率越高。

因此,MPEG音频压缩编码的第一条线,利用子带分析滤波器组使信号具有高的时间分辨率,确保在短暂冲击信号情况下,编码的声音信号仍具有足够高的质量。而第二条线利用FFT运算,使信号具有高的频率分辨率,因为掩蔽阈值是从功率谱密度推出来的

编码器重要模块

多项滤波器组

用于分割子带,将PCM样本变换到32个子带的频域信号。

比例因子选择

对每个子带每12个样点进行一次比例因子计算:先定出12个样点中绝对值的最大值,查比例因子表中比这个最大值大的最小值作为比例因子,用6bit表示。

每帧中每个子带的三个比例因子被一起考虑,划分成特定的几种模式。根据这些模式,1个,2个或3个比例因子和比例因子选择信息(每子带2bit)一起被传送。如果一个比例因子和下一个只有很小的差别,就只传送大的一个,这种情况对稳态信号经常出现。

多项滤波器的缺点

① 等带宽的滤波器组与人类听觉系统的临界频带不对应。在低频区域,单个子带会覆盖多个临界频带,在这种情况下,量化比特数不能兼顾每个临界频带。

② 滤波后的相邻子带有频率混叠现象,一个子带中的信号可以影响相邻子带的输出

心理声学模型

输入为比例因子和FFT变换结果,输出为信掩比SMR.

人耳听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到。

  • 听觉阈值的大小随声音频率的改变而改变
  • 一个人能否听到这种声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值

听觉掩蔽效应

听觉阈值电平是自适应的,会随听到的不同频率的声音而发生变化。由于一个声音的存在而使得另一个声音听阈提高的现象称为掩蔽效应。第一个声音称为掩蔽声,第二个声音称为被掩蔽声。掩蔽声对被掩蔽声的掩蔽效应,取决于两者信号频率和强度的关系。

临界频带

临界频带是指当某个纯音被以它为中心频率,且具有一定带宽的连续噪声所掩蔽时,如果该纯音刚好被听到时的功率等于这一频带内的噪声功率,则这个带宽为临界频带宽度。

临界频带是在研究窄带噪声对纯音掩蔽量的规律时被发现的:
令噪声的中心频率等于信号频率,只改变噪声的带宽同时保持噪声的功率谱密度不变,测试纯音听阈随掩蔽噪声带宽变化的特性。可以发现纯音的听阈随掩蔽噪声带宽的增大而增大,在带宽增加到某一特定值之后听阈恒定保持不变,这一特定值即为临界频带。

掩蔽值计算

掩蔽音与被掩蔽音的组合方式有四种,它们可以分别是

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值