音视频开发基础

最新推荐文章于 2024-07-13 09:09:57 发布

GeekRainBoy

最新推荐文章于 2024-07-13 09:09:57 发布

阅读量110

点赞数

文章标签：音视频 ffmpeg

本文链接：https://blog.csdn.net/weixin_46215433/article/details/127628770

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

声音

声音

一种压力波，通过物体振动引起空气有节奏的振动，使周围空间产生疏密变化，形成纵波（如石头落水的波纹），由此产生声波。

一、声波的三要素？

频率、振幅和波形，频率代表音阶的高低，振幅代表响度，波形代表音色。
人耳的振幅听力范围：20Hz~20KHz。

二、声音的传播介质

可以通过空气、液体、固体进行传播，传播介质不同，速度也不同。空气中传播速度340m/s，水中1497m/s，不过在真空中无法传播。

数字音频

首先要对模拟信号采样，在时间轴上对信息进行数字化。根据奈奎斯特定理（采样定理），按比声音最高频率高2倍以上的频率进行采样。

采样之后如何表示？量化。量化是指在幅度轴对信号进行数字化。

编码是按照一定的格式记录采样和量化后的数字数据，如顺序存储或压缩存储。

通常音频的裸数据格式是脉冲编码调制（PCM）。其包含：量化格式、采样率、声道数等概念。

音频编码

在网络中实时在线传输时，数据量较大，需要进行压缩编码。压缩编码的基本指标是压缩比（一般小于1）。分为有损压缩和无损压缩。用的较多的是有损压缩。一般根据场景不同，选用不同的编码方式，如PCM、WAV、ACC、MP3、Ogg等。

WAV
在PCM数据格式前加44字节（采样率、声道数、数据格式等）信息。
特点：音质好，大多软件支持
场景：多媒体开发的中间文件、保存音乐和音效素材
MP3
使用LAME编码（mp3编码格式）的中高码率mp3文件。
特点：音质在128kbit/s以上还不错，压缩比较高，大多软硬件支持
场合：高比特码率下对兼容性有要求的音乐欣赏
ACC
新一代音频有损编码压缩技术，通过附加一些编码技术，衍生出LC-ACC、HE-ACC、HE-ACC v2三种编码格式。
特点：在小于128kbit/s码率以下表现优异，多用于视频中音频轨的编码
场合：128kbit/s以下的音频编码

图像

三原色：红、绿、蓝
分辨率为7280*720，水平方向像素点为720，垂直方向有1280个像素点。

图像的数值表示

浮点表示：取值范围0.0~1.0
整数表示：0~255或者00-FF,8比特表示一个子像素，32比特表示一个像素。
计算一张1280720图像的大小： 1280720*4 = 3.516MB。每张图片的裸数据很大，因此需要图像压缩。比如JPEG压缩：jpeg是静态图像压缩标准。

YUV
视频帧的裸数据表示，更多的是YUV数据格式的表示，主要用于优化彩色视频信号的传输，使其向后兼容黑白电视。相比于RGB，其占用极少的频宽。“Y”表示明亮度，“U”和“V”表示色度。亮度由RGB输入信号建立，色度定义了色调和饱和度，分别用Cr和Cb表示。
最常用的表示方式Y、U、V用8比特表示，0~255。
最常用采样格式4：2：0，意味着只有Y、Cb，没有Cr。此外还有4：4：4以及4：2：2。简单来说，4：4：4就是每个Y分量对应一组U和V分量；4：2：2就是两个Y分量对应一组U和V分量；而4：2：0就是四个Y分量对应一组U和V分量。

视频的编码形式

视频编码也是去除冗余信息，包括时间和空间上的。使用帧间编码技术可以去除时间上的冗余信息
（1）运动补偿
（2）运动表示
（3）运动估计
使用帧内编码技术去除空间上的冗余信息：Motion JPEG既Mpeg，用于动态视频的压缩算法。除了对单幅图像进行编码，还可以利用图像序列的相关原则去除冗余，极大提高视频压缩比。目前的版本：Mpeg1（用于VCD）、Mpeg2（用于DVD），Mpeg4 AVC（现在流媒体使用最多的）。
相比于ISO制定的MPEG，ITU-T制定的H.261、H.262、H.263、H.264一系列视频编码。其中H.264集中所有优点。目前使用最多的就是H.264，其创造了多参考帧、多块类型、整数变换等压缩技术。

编码概念

IPB帧
视频压缩中每一帧代表一幅静止图像。I帧：帧内编码帧，I帧压缩去除视频的空间冗余信息。P帧：前向预测编码帧，通过图像序列中前面已编码的时间冗余信息去除压缩传输数据量的编码图像。B帧：双向预测编码帧，既考虑前面已编码帧，也顾及后面的已编码帧之间的时间冗余信息。
PTS与DTS
DTS主要用于视频的解码，PTS用于视频解码阶段进行视频的同步和输出。
GOP
两个I帧之间形成的一组图片，就是GOP。通常为编码器设置参数时，需设置gop_size的值，代表的是两个I帧之间的帧数目。