Wav文件格式简要分析

WAVE文件格式是Microsoft的RIFF规范的一个子集,用于存储数字音频,整个文件就是一个RIFF大块,它的基本形式包括两种块:fmt块,用于描述压缩格式、采样率等基本信息;data块。包含实际样本数据。
这里写图片描述

  • RIFF标头结构定义
struct RIFF_HEADER
 {
  char szRiffID[4];  // 四个字符'R','I','F','F',像这样的字符是低字节存高位,即地址从低到高依次读出'R','I','F','F'
  DWORD dwRiffSize;//文件总数据量-8字节(即除去开头8字节),像这样的数字是低字节存低位,读数时应从高字节向低字节读,才能正确读出
  char szRiffFormat[4]; //四个字符 'W','A','V','E'
 };
地址字节数数据类型变量名内容
00H~03H4charszRiffID[4]‘R”I”F”F’标志
04H~07H4DWORDdwRiffSize文件大小,不包括前8字节
08H~0BH4charszRiffFormat[4]‘W”A”V”E’标志
  • FMT块结构定义
    先定义一个关于波形文件信息的结构体,再把这个结构体作为FMT块结构体的一个成员。
struct WAVE_FORMAT
 {
  WORD wFormatTag;// 编码方法,PCM编码时为1,其他压缩方法时参见下文中“wav格式支持的压缩方法”
  WORD wChannels;//通道数,1为单声道,2为双声道
  DWORD dwSamplesPerSec;//采样率,即每秒的样本数
  DWORD dwAvgBytesPerSec; //传输速率,每秒字节数=采样率*每个样点字节数(即下面的wBlockAlign)
  WORD wBlockAlign; //每个样点字节数=样本宽度*通道数/8
  WORD wBitsPerSample; //样本宽度,即一个样值用多少位表示,通常为8或16
 };

FMT块结构体

 struct FMT_BLOCK
 {
  char  szFmtID[4]; // 'f','m','t',三个字符,最后一个字节为空格
  DWORD  dwFmtSize;//fmt块的字节数(编码方式为pcm时为16,即下面结构体成员的字节数,不为pcm时,为),不包括前8个字节 
  WAVE_FORMAT wavFormat;// 上面那个结构体
 };
地址字节数数据类型变量名内容
0CH~0FH4charszFmtID[4]‘f”m”t’标志
10H~13H4DWORDdwFmtSizefmt块大小,不包括前8字节(一般为16)
14H~15H2WORDwFormatTag标识文件采用的编码方法
16H~17H2WORDwChannels标识单/双(1/2)声道
18H~1BH4DWORDdwSamplesPerSec采样率
1CH~1FH4DWORDdwAvgBytesPerSec传输速率
20H~21H2WORDwBlockAlign每个样点字节数
22H~23H2WORDwBitsPerSample样本宽度
附加信息(24H~25H)2WORD额外的字节数,即下面2字节的WORD ,当wFormatTag不是pcm时会有这最后两项
附加信息(26H~27H)2WORD每一个data block的采样点数,因为在采用IMA-ADPCM压缩算法data chuck中的数据是以block形式来组织的
  • 可选部分fact chunk
    当wav文件由某些软件转成,会含有该chunk,结构定义如下:
struct FACT_BLOCK
 {
  char  szFactID[4]; //四个字符 'f','a','c','t'
  DWORD  dwFactSize;
 };
  • Data chunk头结构定义
struct DATA_BLOCK
 {
  char szDataID[4]; // 四个字符'd','a','t','a'
  DWORD dwDataSize;//数据块字节数,不含前8个字节
 };

数据块的具体组织格式,在下面,8bit和16bit的区别中介绍。

QUESTION1: 8bit和16bit样值的二进制编码方式表示一样吗?

对于wFormatTag为WAVE_FORMAT_PCM格式时的非压缩数据,data chunk中紧跟着DataChunkSize后的PCM数据组成如下:

  • 8bit(无符号0~255)
    单声道
    这里写图片描述
    双声道
    这里写图片描述
    16bit:有符号 -32768~32767
    单声道
    这里写图片描述
    双声道
    这里写图片描述

对于其他压缩形式,储存格式就更为复杂。比如wFormatTag为IMA-ADPCM时,数据从PCM16位采样压缩成4位,单声道是按采样次序写入,每字节2两个样点,低4位是第一个样点,高4位是第二个样点,双声道是先写左声道前8个样点,也就是4字节,作为一个DWORD,再写右声道8个样点,作为一个DWORD,写到最后如果不够8个样点就补0到8个样点。

QUESTION2: 上面提到了ADPCM的压缩格式,那么现有的WAV支持哪几种音频压缩方法?

wFormatTag有10个值对应10种编码算法:

wFormatTag值编码算法
0001HPCM/uncompressed
0002HMicrosoft ADPCM
0006HITU G.711 a-law
0007HITU G.711 µ-law
0011HIMA ADPCM
0016HITU G.723 ADPCM (Yamaha)
0031HGSM 6.10
0040HITU G.721 ADPCM
0050HMPEG
FFFFHExperimental

QUESTION3: 广泛采用的WAV文件为16bit、 44.1kHz,那么采样率48khz的wav文件如何转换成44.1khz?

由于44.1khz与48khz不是整数倍的关系,所以要先插值再重新取样,48k和44.1k的公倍数为7056k,所以先插值为7056k(=48 k *147=44.1k*160),比如说有一秒钟的数据量,可以在每个样值后面复制146个该样值达到插值的目的,然后从第一个样值开始取,每隔159个样值取一个新样值,最后就取出了44.1k个样值,就完成了采样率的转换。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
wav文件是一种常见的音频文件格式,它是由Microsoft和IBM共同定义的。下面是对wav文件格式的详解: 1. 文件头(Header):wav文件的前44个字节是文件头,包含了文件的基本信息。文件头的结构如下: - ChunkID(4字节):文件标识,通常为"RIFF"。 - ChunkSize(4字节):文件大小,即整个文件的大小减去8个字节(ChunkID和ChunkSize本身的大小)。 - Format(4字节):文件格式,通常为"WAVE"。 - Subchunk1ID(4字节):子块标识,通常为"fmt "。 - Subchunk1Size(4字节):子块大小,即除去Subchunk1ID和Subchunk1Size本身的大小。 - AudioFormat(2字节):音频格式,常见值为1表示PCM(脉冲编码调制)。 - NumChannels(2字节):声道数,常见值为1表示单声道,2表示立体声。 - SampleRate(4字节):采样率,即每秒采样的样本数。 - ByteRate(4字节):数据传输速率,即每秒传输的字节数。 - BlockAlign(2字节):数据块对齐,即每个采样的字节数。 - BitsPerSample(2字节):样本位数,即每个采样的位数。 2. 数据块(Data Chunk):文件头之后的部分是音频数据块,包含了实际的音频采样数据。数据块的结构如下: - Subchunk2ID(4字节):子块标识,通常为"data"。 - Subchunk2Size(4字节):子块大小,即音频数据的大小。 - Data(变长):音频数据,以二进制形式存储。 在wav文件中,音频数据以采样点的形式存储,每个采样点的值表示音频信号在该时间点上的幅度。采样点的位数(BitsPerSample)决定了每个采样点的精度,位数越高,精度越高,音频质量也越好。 总结起来,wav文件格式通过文件头和数据块来存储音频数据,其中文件头包含了文件的基本信息,数据块存储了实际的音频采样数据。通过解析文件头和读取数据块中的采样数据,可以对wav文件进行分析和处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值