流媒体开发千问【持续更新】

ThatJin

已于 2023-08-26 16:25:30 修改

阅读量432

点赞数

文章标签： ffmpeg

于 2023-08-23 18:51:47 首次发布

MIT License

本文链接：https://blog.csdn.net/weixin_44328568/article/details/132458914

版权

H.264中IDR帧和I帧区别

H.264/AVC编码标准中，IDR帧和I帧都是关键帧，即它们都不依赖于其他帧进行解码。但是，它们之间存在明确的区别：

定义与功能：

I帧（Intra-frame）：I帧是一个内部编码帧，它的编码仅基于它自己。I帧不依赖于其他帧，因此它可以独立解码。这也是为什么我们通常将其视为关键帧。

IDR帧（Instantaneous Decoder Refresh Frame）：IDR帧是一个特殊类型的I帧。除了它是一个关键帧并且可以独立解码外，它还有一个额外的功能：标志解码器应该刷新/丢弃之前的所有参考帧。这意味着，从一个IDR帧开始，后续的帧不会引用这个IDR帧之前的任何帧。
解码器的行为：
当解码器遇到I帧时，它可以独立解码这个帧，但仍然可能需要前面的帧作为后续P/B帧的参考。

当解码器遇到IDR帧时，它知道这个帧之前的所有帧都不再需要作为参考，因此它可以安全地丢弃/忘记这些帧。这是为了解码之后的帧。

应用场景：
I帧：在常规的视频压缩中，I帧会周期性地插入，以提供一个“刷新点”以及在视频中进行随机访问的点。

IDR帧：在需要强制刷新解码器状态的情况下使用，例如，在视频通话或流媒体应用中，如果检测到大量的丢包或连接中断，发送一个IDR帧可以快速恢复正确的视频显示。

即：所有IDR帧都是I帧，但并非所有I帧都是IDR帧。IDR帧提供了一个显式的指示，告诉解码器丢弃之前的所有参考帧并从当前帧开始新的解码过程，避免了错误传递。

ffmpeg中Packet/Frame数据复用

使用av_packet_ref和av_frame_ref: 这两个函数允许你为AVPacket或AVFrame创建一个新的引用，而不需要复制实际的数据。
避免使用av_packet_clone和av_frame_clone: 这些函数实际上会复制数据
正确释放资源: 当你不再需要AVPacket或AVFrame的数据时，确保使用av_packet_unref和av_frame_unref释放它们。这不仅会减少内存使用，还会确保在所有引用都被释放后，底层的数据也会被正确地释放。

流媒体开发中遇到花屏可能的原因

流媒体开发中的花屏问题通常是由视频数据的损坏或丢失所引起的。以下是可能导致花屏的原因：

数据丢失或损坏：
- 网络抖动、延迟或丢包。
- 媒体文件本身的损坏。
- 存储或传输过程中的数据错误。
错误的解码：
- 解码器错误或不匹配的编解码器版本。
- 使用了不支持的编码特性或配置。
关键帧问题：
- 丢失关键帧，导致后续的预测帧（P/B帧）无法正确解码。
- 不完整或丢失的GOP（Group of Pictures）结构。
- 长时间没有接收到新的关键帧。
时序问题：
- 帧重排序，导致解码的帧序列错误。
- 错误的时间戳或不同步的时钟。
码流不完整或损坏：
- 传输或存储中断，导致码流不完整。
- 解析码流时出现错误。
错误的参数集（SPS/PPS）：
- 缺失、错误或不匹配的序列/图片参数集。
硬件加速问题：
- GPU或其他硬件解码器的故障或错误。
错误的视频格式或配置：
- 解码器不支持的色彩空间或格式。
- 错误的分辨率或帧率配置。
软件或系统问题：
- 驱动程序、解码库或播放器软件的故障或不兼容。
- 系统资源不足，导致解码过程被打断或延迟。
网络连接问题：

不稳定的网络连接或带宽瓶颈。
错误的包重组或网络配置问题。

缓冲区问题：

缓冲区太小，导致数据溢出。
缓冲区管理错误或未正确释放旧数据。

安全或DRM问题：

加密或DRM保护的媒体没有正确解密。

解决花屏问题通常需要详细的调试和日志分析，以确定具体的问题根源并采取适当的措施进行修复。

流媒体直播的秒开技术

为了提供更快的播放启动时间，从而为用户提供更佳的观看体验。以下是一些建议和技术：

低延迟直播流：采用低延迟的流媒体协议和技术，如RTMP、WebRTC或HLS的低延迟变体。
优化关键帧间隔：减少关键帧的间隔，可以使播放器更快地获取第一个关键帧并开始播放。但要注意这可能会稍微牺牲视频质量和增加带宽使用。
CDN加速：使用内容分发网络（CDN）加速流媒体数据的传输，使用户从最近的边缘节点获取数据。
预缓存：预加载视频流或预读流的开始部分，以便用户点击播放时可以立即开始。
优化播放器：选择或开发一个高效的播放器，它可以快速启动、初始化解码器并开始播放。
减少播放列表的长度：对于像HLS这样的分段媒体，减少m3u8播放列表中的初始片段数量。
初始片段减少大小：尽可能使初始视频片段的大小最小化，从而加速下载和解码的速度。
快速启动的编解码器：选择或优化编解码器，使其能够在最短的时间内启动并解码视频。
优化网络请求：减少播放启动过程中的网络请求数量，例如减少DRM许可证请求或合并API调用。
自适应比特率：使用自适应比特率流（例如HLS、DASH），并从较低的比特率开始播放，然后根据网络条件逐步提高。
TCP和UDP优化：使用TCP快速打开、UDP协议或其他网络优化技术，减少连接和数据传输的延迟。
避免重新缓冲：一旦视频开始播放，持续监控和调整播放速率以避免重新缓冲。
并行请求：对于需要多个请求的初始化操作（例如获取播放列表、获取关键片段、加载DRM许可证等），并行执行网络请求以减少启动时间。
服务端网络优化：确保服务端网络连接和响应时间尽可能地快，并使用HTTP/2或HTTP/3协议来加速多个流请求。
服务端硬件加速：使用硬件加速的编解码器进行流的转码，可以减少从原始源到目标格式的延迟时间。
持久连接：使用持久HTTP连接或WebSockets，避免频繁的TCP握手操作，从而减少启动延迟。
关键帧对齐：在多码率流中，确保所有流的关键帧都是对齐的，这样可以在码率切换时避免额外的延迟。
优化关键帧提取：预提取关键帧并缓存，使新加入的观众可以立即从关键帧开始播放。
优化初始加载逻辑：在播放器中，通过减少初始配置、初始化和资源检查的操作，可以进一步减少启动时间。
数据预取：对于预计会被用户请求的流，提前进行数据预取，这样当用户真正请求时，数据已经在本地或近端CDN节点上可用。
动态内容路由：根据用户的地理位置和网络条件，动态地路由他们到最优的服务器或CDN节点。
智能码率选择：在启动时，播放器可以根据当前网络条件快速选择最佳的初始码率，而不是总是从最低码率开始。
实时监控和分析：持续收集和分析播放器启动性能数据，以便在后续版本中进行优化。
预生成内容片段：对于预录制的直播事件，可以预先生成和缓存内容片段，从而在实际直播时减少编码和传输的延迟。
Fast Start策略：一些流媒体协议如DASH允许“Fast Start”，即在缓冲一小段视频后立即开始播放，同时后台继续下载。
低延迟编码设置：在编码设置中，可以选择更适合实时传输的参数，例如使用CABAC代替CAVLC，或者调整B帧的数量。
TCP和UDP优化：考虑在适当的场景下使用UDP传输协议，它在有丢包的情况下可能会更快。QUIC协议是基于UDP的一种可靠的传输机制，它也可以加快连接建立的速度。
持久化存储：对于常用的流，可以将其存储在客户端的持久化存储中，以实现即时启动。
动态调整流的复杂性：根据当前的网络和设备条件，动态地调整视频流的复杂性，使其更快地开始播放。
使用CDN预热：在预期大流量的情况下，可以预先在CDN上“预热”内容，确保内容在多个地点都快速可用。
减少重定向：尽量减少网络请求中的重定向次数，因为每一次重定向都会增加额外的网络延迟。
最佳实践的TLS握手：优化SSL/TLS握手，考虑使用TLS 1.3，它减少了握手时的往返次数。
内容预览：提供内容的小片段作为预览，让用户在完整内容加载时已经开始观看。
提前鉴权：如果流媒体服务需要身份验证或其他鉴权操作，应该在实际请求流之前就进行，以减少启动延迟。
实时自适应网络调整：当检测到网络变化时，实时地调整流的质量或其他参数，以避免重新缓冲或启动延迟。
负载均衡：确保有有效的负载均衡策略，使用户请求始终被路由到最近的、负载最低的服务器。

实现上述策略的某些方面可能会受到具体的使用场景、流媒体协议、网络条件和其他因素的限制。最好进行综合评估并在实际环境中测试，以找到最合适的秒开策略。

FFmpeg 进行解码时，检测视频流中的丢帧：

使用解码器的错误识别：

FFmpeg 的解码器经常能够识别并报告错误。例如，当 H.264 的解码器遇到错误时，它可能会返回 AVERROR_INVALIDDATA 错误。你可以检测这些错误来识别潜在的丢帧。
RTP Sequence Number：

如果你正在处理 RTP 流，每个 RTP 包都有一个 sequence number。你可以通过检查这些序列号来检测是否有丢失的包。如果序列号出现跳跃，说明丢失了一个或多个 RTP 包。
检查时间戳：

如果视频数据包有时间戳（PTS 或 DTS），你可以通过检查它们来识别丢帧。如果时间戳之间有不可解释的跳跃，这可能意味着有帧丢失。
解析 bitstream：

你可以直接解析 H.264 的 bitstream 来检测丢帧。例如，你可以检查每个帧的 frame_num。在正常情况下，连续的帧（在同一个 GOP 中）应该有连续的 frame_num。如果 frame_num 出现跳跃，这可能意味着有帧丢失。
观察解码后的图像：

有时，最简单的方法是观察解码后的图像。如果图像出现明显的花屏或其他伪像，这可能意味着有帧丢失。
日志和统计信息：

FFmpeg 可以提供大量的日志和统计信息。你可以调整 FFmpeg 的日志级别来获取更多的详细信息，并从中查找任何关于丢帧或错误的提及。

当检测到丢帧后，为了避免花屏或伪像，丢弃当前 GOP 内的所有帧并等待下一个 IDR 帧是一个常见的策略。IDR 帧是自包含的，这意味着它不依赖于任何其他帧进行解码，从而避免任何由于丢帧导致的解码错误。

视频播放中的“花屏”和“卡顿”

花屏通常是由于GOP（Group of Pictures）中的帧丢失导致的。当解码器试图处理这些丢失的帧时，它可能会出现马赛克效果。实际上，如果没有正确的运动矢量、残差值和关键帧（I帧），后续的所有数据都可能无法正确解码。另一方面，为了避免花屏，一种常见策略是在检测到帧丢失时立即丢弃当前GOP的所有帧，等待下一个IDR帧来刷新图像。然而，这种方法有一个副作用：由于I帧是按固定周期生成的，并且这个周期可能相对较长，所以在下一个I帧到达之前，视频可能会停止播放，导致观众体验到“卡顿”现象。

Annex B 格式

Annex B 是 H.264/AVC 视频编码标准中的一个常见格式。其主要特征和用途如下：

开始码：Annex B 格式的 NAL 单元（Network Abstraction Layer Unit）开始于一个特定的字节序列，通常为 0x000001 或 0x00000001，称为“开始码”（start code）。这些开始码可以使解码器在字节流中定位 NAL 单元的开始。
在 RTP 中的应用：虽然在存储和传输中广泛使用了 Annex B 格式，但在 RTP 包中不使用它。相反，H.264 RTP 负载格式定义了其自己的 NAL 单元前缀方式。
NAL 单元分割：由于开始码是一个固定的模式，它提供了在编码数据流中定位 NAL 单元边界的简单方式，这对于流媒体解码非常有用。
在其他容器中的应用：当 H.264 数据存储在某些媒体容器中（如 MP4）时，通常不使用 Annex B 格式。而是使用长度前缀来表示每个 NAL 单元的大小。

Annex B 格式提供了一种方式来在字节流中定位 H.264 NAL 单元的开始和结束，这是通过使用明确的开始码来完成的。

ffmpeg 添加水印

可以使用overlay filter。以下是一些基本步骤：

准备: 首先确保你已经安装了ffmpeg，并且你有一个要添加水印的视频文

准备: 确保已经安装ffmpeg，一个要添加水印的视频文件和一个水印图片（例如PNG格式，因为支持透明度）。
基本命令:

ffmpeg -i input_video.mp4 -i logo.png -filter_complex "overlay=W-w-10:H-h-10" output_video.mp4

这条命令会做以下事情：

-i input_video.mp4 指定输入的视频文件。
-i logo.png 指定水印图片。
-filter_complex "overlay=W-w-10:H-h-10" 使用overlay filter将水印放在视频的右下角，与边界保持10像素的距离。
output_video.mp4 是添加水印后的输出视频文件名。