一.感知音频编码的设计思路:
两条线 :
第1条线:输入的PCM码流经过多相滤波器组分解成32个子带信号,经过块形成后,对每个子带数据进行线性量化,对部分量化级别采用颗粒优化以增大压缩比,最后装帧输出。
第2条线:输入的PCM码流进行FFT变换,经过心理声学模型去除信号中被掩蔽的部分,确定动态比特分配和比例因子选择信息。最后相关信息进行边信息编码,一起封装成帧比特流进行传输。
时-频分析的矛盾:
在时域上,我们希望分辨率更高,这就意味着采样的时间会越短;但是此时频谱会展宽,那么频域的分辨率势必会下降,这就造成了时频分析的矛盾。
二.理解心理声学模型的实现过程
(1)临界频带的概念
临界频带是指当某个纯音被以它为中心频率、且具有一定带宽的连续噪声所掩蔽时,如果该纯音刚好被听到时的功率等于这一频带内的噪声功率,这个带宽为临界频带宽度。
(2)掩蔽值计算的思路
音频信号通常有较为复杂的频谱结构,因此能产生掩蔽阈值的掩蔽音分量也有许多。
掩蔽音与被掩蔽音的组合方式有四种,它们可以分别是乐音信号和窄带信号。
Lutfi对多个掩蔽音同时存在时的综合掩蔽效果进行了研究:每个掩蔽音的掩蔽效果先独立变换再线性相加。
三.心理声学模型I的实现结构
1.谱计算
2.声压级测定
3.安静状态阈值
4.判决有调和无调
5.有调和无调成分的抽取
6.单独掩蔽阈值的计算
7.总体掩蔽阈值的计算
四.码率分配
1、计算噪声-掩蔽比(noise-to-mask ratio, NMR):
N M R = S M R – S N R ( d B ) NMR = SMR – SNR (dB)
NMR=SMR–SNR(dB)
其中SNR 由MPEG-I标准给定 (为量化水平的函数),NMR:表示波形误差与感知测量之间的误差
2、对最高NMR的子带分配比特,使获益最大的子带的量化级别增加一级
3、重新计算分配了更多比特子带的NMR
4、循环重复2、3步骤,直到没有比特分配。
五.程序设计
音频输入:
// 读取音频长度
unsigned long get_audio (FILE * musicin, short buffer[2][1152], unsigned long num_samples, int nch, frame_header *header)
// 将音频存入buffer
unsigned long read_samples (FILE * musicin, short sample_buffer[2304], unsigned long num_samples, unsigned long frame_size)
// 计算可用比特数
int available_bits (frame_header *header, options * glopts);
多项滤波器组:
void WindowFilterSubband( short *pBuffer, int ch, double s[SBLIMIT] );
计算比例因子:
// 二分法查找比例因子
void scale_factor_calc (double[][3][SCALE_BLOCK][SBLIMIT],
unsigned int[][3][SBLIMIT], int, int);
// 每个子带对应的三组样本分别选择三个不同的比例因子
void pick_scale (unsigned int[2][3][SBLIMIT], frame_info *,
double[2][SBLIMIT]);
// 比例因子选择信息
void transmission_pattern (unsigned int[2][3][SBLIMIT],
unsigned int[2][SBLIMIT], frame_info *);
动态比特分配:
// 计算MNR,循环进行动态比特分配
void main_bit_allocation_new (double SMR[2][SBLIMIT],
unsigned int scfsi[2][SBLIMIT],
unsigned int bit_alloc[2][SBLIMIT], int *adb,
frame_info * frame, options * glopts);
量化装帧:
// 比特分配
void encode_bit_alloc (unsigned int[2][SBLIMIT], frame_info *,
Bit_stream_struc *);
// 比例因子
void encode_scale (unsigned int[2][SBLIMIT],
unsigned int[2][SBLIMIT],
unsigned int[2][3][SBLIMIT], frame_info *,
Bit_stream