import torchaudio
# 加载路径此处更改为自己文件的路径就可以
SAMPLE_WAV = 'test_data.wav'
metadata = torchaudio.info(SAMPLE_WAV)
print(metadata)
对于我的这个音频的info结果为: AudioMetaData(sample_rate=48000, num_frames=72000, num_channels=1, bits_per_sample=16, encoding=PCM_S)
sample_rate 是音频的采样率,即音频信号每秒钟采样的次数。
num_channels 是通道数量,表示音频文件中有多少个独立的音频信号流,比如单声道音频是1个通道,立体声音频是2个通道。
num_frames 是每个通道的帧数,表示音频文件中每个通道所包含的音频帧总数。帧是音频处理中常用的一个时间片段概念,通常用于分段分析或处理音频信号。
bits_per_sample 是比特深度,表示每个采样点的量化精度,也就是每个音频样本占用的位数。例如,16位的比特深度意味着每个音频样本可以表示2^16种不同的电平值。
电平值在音频信号处理中通常指的是信号的振幅或强度大小。它是表示音频信号波动幅度的一个度量,可以是电压、电流或者其他物理量的测量值。在数字音频中,电平值则转化为离散的数字量,即采样值。在音频系统中,电平值的绝对大小会影响到声音的响度或音量,而相对于系统的最大电平值的比例则决定了信号的响度级别(dB SPL或dBFS等)。过高的电平值可能导致失真,过低则可能使声音听不清或无法察觉。例如,在一个16位的音频系统中,电平值的范围是从-32768到32767(包括两端点),这个范围内的每一个数值代表了一个特定的电平强度。在数字音频制作和播放过程中,正确控制电平是非常重要的,以确保音质和播放设备的安全。
encoding 是采样编码格式,指定了音频数据是如何被编码的,例如 PCM_S 通常代表 Pulse Code Modulation(脉冲编码调制),这是一种常见的无损音频编码方式,S 可能是指 Signed(有符号整数),表示音频样本的值既可以是正的也可以是负的。