多媒体技术:语音音频压缩

语音音频基础知识

物理世界的声音——语音

语音短时平稳性:人在说话时,声道形状会随口腔肌肉运动而进行相应变化,肌肉运动频率相对于语音变化频率而言要相对缓慢,在一个短时间间隔(20~40ms)内,可以认为声道及其输入是近似平稳的。
语音信号分析帧:假设语音信号短时平稳,为便于语音信号处理,会将语音信号进行分帧处理,语音信号的处理帧长为20ms。
在这里插入图片描述
听觉感知

语音音频编码方法

波形编码

波形编码原理

波形编码:将时域波形信号采样、量化和编码形成数字语音信号,恢复的音频信号与原始信号波形基本上相同。

波形编码技术特点:高话音质量、压缩比低、码率通常在20kb/s以上、适用于高清高真语音编码。

在这里插入图片描述

  • 采样
    将时间连续信号变成时间离散信号。语音通信中采样频率通常为fs=8kHz,为了避免混叠,采样频率至少为连续信号频率的两倍。(奈奎斯特采样定理:采样频率至少应为信号最高频率的两倍)
    在这里插入图片描述

  • 量化
    将采样后的信号按幅度划分成有限个区段,把落入某个区段内的样值赋于相同的量化值。
    在这里插入图片描述

  • 编码
    将每个采样点赋值为量化单位的整数倍m(四舍五入),再对m进行二进制编码。
    在这里插入图片描述

常用波形编码技术

脉冲编码调制PCM

脉冲编码调制(Pulse Code Modulation, PCM):只对模拟音频采样量化。优点:方法简单,重构信号与原始信号几乎没有差别,代表了数字音频最佳保真水准,被广泛用于素材保存及音乐欣赏,CD、DVD文件中。缺点:实质上并没有进行压缩,编码后数据量大。

最高频率为20KHz双声道模拟音频信号,若采样频率为44.1KHz,量化位数为16位,采用PCM编码后数据带宽(数据传输率)为:44.1 × 16 × 2 = 1411.2𝐾𝑏𝑝s

  • 均匀量化方法
  • 非均匀量化方法
差分脉冲编码调制DPCM
自适应差分脉冲编码调制ADPCM
子带ADPCM

参数编码

感知编码

语音音频编码框架

语音编码框架

ACELP

  • 原理:语音信号特点 + 线性预测合成模型。ACELP的基本原理是利用线性预测模型来描述语音信号的生成过程,并通过对激励信号进行编码来实现对语音信号的压缩。

音频编码框架

TVC

混合编码框架

语音音频编码标准

语音音频质量评价

空间音频编码

多声道编码

三维音频系统

  • 14
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值