一、音频概念
如果想做音频相关的技术,首先我们要充分了解什么是音频,如何获取它,如何控制它。
音频是一种由声波组成的信号,通过空气或其他介质传播。这些信号可以被录制、传输、处理和播放。
1. 声音的物理性质
-
频率 (Frequency): 声音的频率决定了它的音调(高低)。频率的单位是赫兹(Hz),代表每秒钟的振动次数。人类能听到的频率范围通常是20 Hz到20,000 Hz。
-
振幅 (Amplitude): 振幅决定了声音的响度。振幅越大,声音越响。它通常以分贝(dB)为单位来测量。就比如男生声音的振幅一般比女生高。
-
波形 (Waveform): 声波的形状,显示了声音信号的振动模式。就比如每个人说话的声音听起来都是不一样的。
2. 音频信号
-
模拟信号 (Analog Signal): 模拟音频信号是连续的,可以表示为波形。传统的录音和广播通常使用模拟信号。
-
数字信号 (Digital Signal): 数字音频信号是离散的,通过二进制数表示。现代的录音、存储和传输大多使用数字信号。
3.音频处理
-
采样 (Sampling): 数字化过程中,采样是将模拟信号转换为数字信号的过程。采样率决定了每秒钟记录多少次样本。常见的采样率有44.1 kHz、48 kHz等。
-
量化 (Quantization): 量化是将连续的模拟信号振幅转换为离散的数字值的过程。量化位数决定了信号的精度,例如16位、24位、32位等。
-
编码 (Encoding): 将量化后的值用二进制数表示,这是PCM音频数据的实际内容。
还有一些概念在我们开发过程中会经常遇到:
-
通道数(channel):顾名思义声音通道的数量,一般有单声道、双声道,可能还有四声道等等。比如我们坐在车里一般可以听到主驾和副驾都有扬声器播放出声音,这种一般就是双声道,只有一个那就是单声道。当然这也不单是说同一个音频从多个喇叭播放出来就行了,这里还涉及到了音频的采样位置等技术,通过多个声道可以准确判断出声音发出的方位。
-
音频帧(Frame):假设我们有一个立体声(双声道)的音频文件,采样率是44.1 kHz,每个样本16位深度(2字节)。那么,一个音频帧会包含两个样本(一个用于左声道,一个用于右声道),每个样本2字节,总共4字节。每秒钟有44100个帧,因此数据速率为176.4 kB/s(44100帧/秒 × 4字节/帧)。
如上就是音频的一些基本的概念,在我们日常开发过程中最常用的音频格式就是PCM格式,
PCM(Pulse Code Modulation,脉冲编码调制)是一种无损的数字音频格式。它是最常见的音频数据表示方式之一,特别是在CD和数字音频录音中。PCM格式直接记录音频信号的波形,是一种线性格式,这意味着它不进行任何数据压缩,因此保留了高质量的音频。
二、音频处理技术
-
ECNR(增强回声消除和噪声抑制)
这是一个用于改进音频质量的技术,特别是在语音通话或录音时。这项技术的主要功能包括:
-
回声消除(Echo Cancellation): 这项功能可以消除从扬声器反射回麦克风的声音,防止回声影响通话质量。这在免提通话或会议通话中尤为重要。
-
噪声抑制(Noise Reduction): 这项技术减少背景噪音,使语音更加清晰。这对于在嘈杂环境中进行通话或录音非常有用。
2. 增益控制
音频增益控制是调整音频信号的强度或电平的一种技术。它可以用来增加或减少音频信号的幅度,从而改变音量或使音频信号的质量更好。增益控制通常用于音频设备中,如麦克风、音频接口、放大器和调音台。
-
麦克风增益:麦克风通常会捕捉较弱的音频信号,增益控制可以用来放大这些信号,使其达到合适的电平,以便后续处理或播放。
-
输入增益:在音频接口或混音台中,输入增益可以调整来自各种音源(如乐器或音频播放设备)的信号强度。
-
信号噪声比(SNR):正确设置增益可以提高信号与噪声的比率,确保音频信号清晰而不失真。
-
过载和削波:增益过大可能导致信号过载或失真,称为削波(clipping)。削波会引起部分的音频失真,因此需要适当控制增益以避免这种情况。
-
自动增益控制(AGC):一些设备或软件具有自动增益控制功能,能够自动调整信号的增益以维持恒定的输出电平。
在实际使用中,音频工程师或爱好者会根据需要手动调整增益,以实现理想的音频质量和音量平衡。
三、音频格式
音频格式是指存储音频数据的文件格式。不同的音频格式有不同的压缩方式和编码技术,适用于不同的用途。以下是一些常见的音频格式及其特点:
无损音频格式
无损音频格式在不丢失任何原始数据的情况下压缩音频,这意味着解压缩后,音频与原始录音完全一致。这些格式适用于对音质要求极高的场合。
-
WAV(Waveform Audio File Format):
-
常见的未压缩音频格式。
-
通常用于专业音频工作,如录音和音频编辑。
-
文件通常较大。
-
-
FLAC(Free Lossless Audio Codec):
-
一种压缩无损音频格式,减少文件大小的同时不损失音质。
-
常用于高保真音频播放和存储。
-
-
ALAC(Apple Lossless Audio Codec):
-
Apple 设备上的无损压缩格式,类似于FLAC。
-
兼容iTunes和Apple设备。
-
-
AIFF(Audio Interchange File Format):
-
类似于WAV,是Apple开发的未压缩格式。
-
常用于Mac系统上的专业音频工作。
-
有损音频格式
有损音频格式通过删除一些不重要的音频数据来压缩文件,从而减少文件大小。这种压缩通常会导致音质的轻微下降,但在大多数情况下,人耳难以察觉。
-
MP3(MPEG Audio Layer III):
-
最流行的有损音频格式之一。
-
广泛支持,适合在线传输和存储。
-
压缩比和音质可调整,但高压缩会降低音质。
-
-
AAC(Advanced Audio Codec):
-
比MP3更高效的有损格式,音质相同的情况下文件更小。
-
广泛应用于Apple设备和流媒体。
-
-
OGG Vorbis:
-
开源有损格式,与MP3和AAC类似。
-
常用于游戏和某些流媒体服务。
-
-
WMA(Windows Media Audio):
-
Microsoft开发的有损格式。
-
支持数字版权管理(DRM),常用于Windows平台。
-
专用音频格式
这些格式通常针对特定用途或设备进行优化。
-
DTS(Digital Theater Systems)和Dolby Digital(AC-3):
-
用于环绕声和家庭影院系统的有损格式。
-
提供多声道音频体验。
-
-
DSD(Direct Stream Digital):
-
高解析度音频格式,用于SACD(超级音频CD)。
-
提供极高的音质。
-
-
MIDI(Musical Instrument Digital Interface):
-
不是真正的音频格式,而是用于存储音乐信息的格式,如乐器的音符和节奏。
-
常用于电子音乐创作和MIDI设备。
-
现在我们对音频有了基本的认识,知道他是如何产生的,我们该如何获取和控制它,接下来我们就可以分析音频的架构了,看ALSA是如何对音频数据进行处理再加工的。
需要了解更多文章的朋友,可以关注我得微信公众号【快乐程序猿】里面会更新的比这里要快。