Android/Linux音频架构开发ALSA-篇1

最新推荐文章于 2024-09-12 21:19:32 发布

走别人不走的路

最新推荐文章于 2024-09-12 21:19:32 发布

阅读量530

点赞数 6

分类专栏： audio-alsa系列详解文章标签：音视频 android linux

本文链接：https://blog.csdn.net/weixin_46453743/article/details/140932376

版权

6 篇文章 1 订阅

订阅专栏

一、音频概念

如果想做音频相关的技术，首先我们要充分了解什么是音频，如何获取它，如何控制它。

音频是一种由声波组成的信号，通过空气或其他介质传播。这些信号可以被录制、传输、处理和播放。

频率 (Frequency): 声音的频率决定了它的音调（高低）。频率的单位是赫兹（Hz），代表每秒钟的振动次数。人类能听到的频率范围通常是20 Hz到20,000 Hz。
振幅 (Amplitude): 振幅决定了声音的响度。振幅越大，声音越响。它通常以分贝（dB）为单位来测量。就比如男生声音的振幅一般比女生高。
波形 (Waveform): 声波的形状，显示了声音信号的振动模式。就比如每个人说话的声音听起来都是不一样的。

3.音频处理

采样 (Sampling): 数字化过程中，采样是将模拟信号转换为数字信号的过程。采样率决定了每秒钟记录多少次样本。常见的采样率有44.1 kHz、48 kHz等。
量化 (Quantization): 量化是将连续的模拟信号振幅转换为离散的数字值的过程。量化位数决定了信号的精度，例如16位、24位、32位等。
编码 (Encoding): 将量化后的值用二进制数表示，这是PCM音频数据的实际内容。

还有一些概念在我们开发过程中会经常遇到：

通道数（channel）：顾名思义声音通道的数量，一般有单声道、双声道，可能还有四声道等等。比如我们坐在车里一般可以听到主驾和副驾都有扬声器播放出声音，这种一般就是双声道，只有一个那就是单声道。当然这也不单是说同一个音频从多个喇叭播放出来就行了，这里还涉及到了音频的采样位置等技术，通过多个声道可以准确判断出声音发出的方位。
音频帧（Frame）：假设我们有一个立体声（双声道）的音频文件，采样率是44.1 kHz，每个样本16位深度（2字节）。那么，一个音频帧会包含两个样本（一个用于左声道，一个用于右声道），每个样本2字节，总共4字节。每秒钟有44100个帧，因此数据速率为176.4 kB/s（44100帧/秒 × 4字节/帧）。

如上就是音频的一些基本的概念，在我们日常开发过程中最常用的音频格式就是PCM格式，

PCM（Pulse Code Modulation，脉冲编码调制）是一种无损的数字音频格式。它是最常见的音频数据表示方式之一，特别是在CD和数字音频录音中。PCM格式直接记录音频信号的波形，是一种线性格式，这意味着它不进行任何数据压缩，因此保留了高质量的音频。

二、音频处理技术

这是一个用于改进音频质量的技术，特别是在语音通话或录音时。这项技术的主要功能包括：

2. 增益控制

音频增益控制是调整音频信号的强度或电平的一种技术。它可以用来增加或减少音频信号的幅度，从而改变音量或使音频信号的质量更好。增益控制通常用于音频设备中，如麦克风、音频接口、放大器和调音台。

在实际使用中，音频工程师或爱好者会根据需要手动调整增益，以实现理想的音频质量和音量平衡。

三、音频格式

音频格式是指存储音频数据的文件格式。不同的音频格式有不同的压缩方式和编码技术，适用于不同的用途。以下是一些常见的音频格式及其特点：

无损音频格式在不丢失任何原始数据的情况下压缩音频，这意味着解压缩后，音频与原始录音完全一致。这些格式适用于对音质要求极高的场合。

WAV（Waveform Audio File Format）:
- 常见的未压缩音频格式。
- 通常用于专业音频工作，如录音和音频编辑。
- 文件通常较大。
FLAC（Free Lossless Audio Codec）:
- 一种压缩无损音频格式，减少文件大小的同时不损失音质。
- 常用于高保真音频播放和存储。
ALAC（Apple Lossless Audio Codec）:
- Apple 设备上的无损压缩格式，类似于FLAC。
- 兼容iTunes和Apple设备。
AIFF（Audio Interchange File Format）:
- 类似于WAV，是Apple开发的未压缩格式。
- 常用于Mac系统上的专业音频工作。

有损音频格式通过删除一些不重要的音频数据来压缩文件，从而减少文件大小。这种压缩通常会导致音质的轻微下降，但在大多数情况下，人耳难以察觉。

MP3（MPEG Audio Layer III）:
- 最流行的有损音频格式之一。
- 广泛支持，适合在线传输和存储。
- 压缩比和音质可调整，但高压缩会降低音质。
AAC（Advanced Audio Codec）:
- 比MP3更高效的有损格式，音质相同的情况下文件更小。
- 广泛应用于Apple设备和流媒体。
OGG Vorbis:
- 开源有损格式，与MP3和AAC类似。
- 常用于游戏和某些流媒体服务。
WMA（Windows Media Audio）:
- Microsoft开发的有损格式。
- 支持数字版权管理（DRM），常用于Windows平台。

这些格式通常针对特定用途或设备进行优化。

DTS（Digital Theater Systems）和Dolby Digital（AC-3）:
- 用于环绕声和家庭影院系统的有损格式。
- 提供多声道音频体验。
DSD（Direct Stream Digital）:
- 高解析度音频格式，用于SACD（超级音频CD）。
- 提供极高的音质。
MIDI（Musical Instrument Digital Interface）:
- 不是真正的音频格式，而是用于存储音乐信息的格式，如乐器的音符和节奏。
- 常用于电子音乐创作和MIDI设备。