数据压缩实验6 —— MPEG音频编码

最新推荐文章于 2022-07-16 13:53:08 发布

Jin_chenlang

最新推荐文章于 2022-07-16 13:53:08 发布

阅读量445

点赞数

分类专栏：数据压缩

本文链接：https://blog.csdn.net/weixin_53323848/article/details/117807625

版权

11 篇文章 0 订阅

订阅专栏

在这里插入图片描述
分为两条线，分别用红框和绿框框起来了。

第一条线，将输入的音频子带分解，形成32个子带。我们希望对于每个频带中的所有点使用相同的量化bit数进行量化，这就要求每个频带中的点的值不能相差太大，于是我们应将信号时间取得很短，由于语音信号的短时平稳性，每个频带中的点就比较接近了。
第二条线，对于输入的音频信号，我们希望找到能够表征它的性质的心理声学模型，心理声学模型的横坐标是频率，纵坐标是阈值。为了使模型与实际更为接近，我们希望频率分得越细越好，即频率分辨率越高越好，这就与第一条线中对于时域分辨率的要求相矛盾了。

1. 比例因子选择

对各个子带每12个样点进行一次比例因子的计算，找出12个样点中绝对值的最大值。查比例因子表中比这个最大值大的最小值作为比例因子。
MPEG-2的一帧对应36个子带样值，是MPEG-1的3倍，原则上要传3个比例因子，但为了降低比例因子的传输码率，采用了人耳时域掩蔽特性的编码策略，每个块（12个样点）找出一个最大的作为比例因子，然后比较三个块的比例因子，如果三个块差不多，则用一个代表；若某两个块差不多，则这两个块用同一个比例因子，另一个块用一个；其余情况同理。

2. 动态比特分配

该模块有两个输入：（目标）码率、心理声学模型
目标：使整个一帧和每个子带的总噪声-掩蔽比最小
心理声学模型的输出为信掩比，信掩比和噪掩比有如下关系：
$N M R = S M R - S N R$
即 $噪掩比 = 信掩比 - 信噪比$
码率分配的实现思路：初始还未分配bit时，信噪比为0，噪掩比等于信掩比。优先对噪掩比高的子带分配bit，使获益最大的子带的量化级别增加一级。量化比特数每增加1bit，信噪比会上升6dB，噪掩比会下降6dB。对该子带重新计算噪掩比，重复上述过程，直到所有子带噪掩比等于0或者bit数用完。

听觉系统中存在一个听觉阈值电平，低于这个电平的声音信号就听不到。

临界频带：临界频带是指当某个纯音被以它为中心频率、且具有一定带宽的连续噪声所掩蔽时，如果该纯音刚好被听到时的功率等于这一频带内的噪声功率，这个带宽为临界频带带宽。
掩蔽阈值：

代码中已经有输出音频采样率和目标码率的语句：
在这里插入图片描述
我们可以先通过在命令行中键入“-h”来根据提示设定命令行参数

设定命令行参数：

运行结果：
在这里插入图片描述

运行后，结果：
在这里插入图片描述
已成功生成txt文件：

为了使输出信息统一，我们增加如下代码，使采样频率和目标码率也输出到该txt文件中：

运行后：

仍选用之前的test.mp2文件作为源文件。
运行后：
在这里插入图片描述

关注