音视频处理流程简介
这篇文章主要是在解复用阶段所使用的结构体。
概述
ffmpeg它支持多种协议,用于从不同来源获取多媒体数据,例如HTTP、RTMP、RTSP、文件等。FFmpeg的协议解析部分包含一些结构体和流程,用于处理不同协议的数据获取。
以下是一些常见的协议解析结构体以及它们的作用:
-
URLContext
:这是FFmpeg中用于表示URL的结构体。它包含有关URL的信息,例如URL的协议、主机、端口、路径等。不同的协议解析器可以使用不同的数据填充这个结构体,以适应各种URL。 -
AVIOContext
:这是用于输入/输出操作的上下文结构体。它可以包含URLContext
以及其他有关I/O操作的信息。AVIOContext
提供了对不同协议的数据读取和写入功能,以便FFmpeg能够在各种情况下处理多媒体数据。 -
URLProtocol
:这是协议解析器的注册结构体。每个协议都有一个与之对应的URLProtocol
结构体,它定义了协议的名称、URL打开、读取、写入等操作的函数指针。这使得FFmpeg可以动态地根据URL的协议选择合适的解析器。
应用场景
一般情况下,标准协议直接通过avformat_open_input(用于打开媒体文件或URL的高级接口之一)打开即可,这个函数内部会处理URL的打开、数据读取、以及解封装(Demuxing)等操作。在许多情况下,使用avformat_open_input
足以满足需求,而无需直接操作AVIOContext
。
那为什么还需要 AVIOContext 呢?
因为有时我们碰到的码流可能并不是标准的,比如如下场景
-
自定义数据源:如果你需要从非标准数据源中读取媒体数据,你可以自定义一个
AVIOContext
,实现你自己的读取逻辑,然后将其与avformat_open_input
结合使用。 -
流式传输:在某些情况下,你可能需要创建一个自定义的
AVIOContext
来处理实时流式传输,以更好地控制数据的读取和处理。 -
加密或解密:如果你需要在读取媒体数据时进行加密或解密操作,可以使用
AVIOContext
来处理这些操作,以便在读取数据之前或之后执行相应的解密或加密操作。 -
自定义控制:
AVIOContext
允许你在更细节的层面上控制数据的读取和写入,这对于某些高级用例可能是必要的。
总的来说,avformat_open_input
是一个高级接口,适用于大多数情况,因为它封装了许多底层细节,使得解析多媒体数据变得非常容易。但是,如果你需要更高级的控制或有特殊需求,可以使用AVIOContext
来进行更自定义的数据处理。
常见用法(代码来自官方实例 avio_read_callback.c)
#include <libavcodec/avcodec.h>
#include <libavformat/avformat.h>
#include <libavformat/avio.h>
#include <libavutil/file.h>
#include <libavutil/mem.h>
struct buffer_data {
uint8_t *ptr;
size_t size; ///< size left in the buffer
};
//读数据回调
static int read_packet(void *opaque, uint8_t *buf, int buf_size)
{
struct buffer_data *bd = (struct buffer_data *)opaque;
buf_size = FFMIN(buf_size, bd->size);
if (!buf_size)
return AVERROR_EOF;
printf("ptr:%p size:%zu\n", bd->ptr, bd->size);
/* copy internal buffer data to buf */
memcpy(buf, bd->ptr, buf_size);
bd->ptr += buf_size;
bd->size -= buf_size;
return buf_size;
}
int main(int argc, char *argv[])
{
AVFormatContext *fmt_ctx = NULL;
AVIOContext *avio_ctx = NULL;
uint8_t *buffer = NULL, *avio_ctx_buffer = NULL;
size_t buffer_size, avio_ctx_buffer_size = 4096;
char *input_filename = NULL;
int ret = 0;
struct buffer_data bd = { 0 };
if (argc != 2) {
fprintf(stderr, "usage: %s input_file\n"
"API example program to show how to read from a custom buffer "
"accessed through AVIOContext.\n", argv[0]);
return 1;
}
input_filename = argv[1];
/* 读取文件,写入到内存中,内存由ffmpeg申请 */
ret = av_file_map(input_filename, &buffer, &buffer_size, 0, NULL);
if (ret < 0)
goto end;
/* 填充用户自定义的buffer用于avio_alloc_context的读数据回调 */
bd.ptr = buffer;
bd.size = buffer_size;
/*申请一个AVFormatContext,用于媒体封装格式解析*/
if (!(fmt_ctx = avformat_alloc_context())) {
ret = AVERROR(ENOMEM);
goto end;
}
/* 申请avio 用的buffer*/
avio_ctx_buffer = av_malloc(avio_ctx_buffer_size);
if (!avio_ctx_buffer) {
ret = AVERROR(ENOMEM);
goto end;
}
/* 申请avio 上下文*/
avio_ctx = avio_alloc_context(avio_ctx_buffer, avio_ctx_buffer_size,
0, &bd, &read_packet, NULL, NULL);
if (!avio_ctx) {
ret = AVERROR(ENOMEM);
goto end;
}
//将AVIOContext句柄填入AVFormatContext中,意味着AVFormatContext委托avio_ctx来进行文件读写
fmt_ctx->pb = avio_ctx;
ret = avformat_open_input(&fmt_ctx, NULL, NULL, NULL);
if (ret < 0) {
fprintf(stderr, "Could not open input\n");
goto end;
}
ret = avformat_find_stream_info(fmt_ctx, NULL);
if (ret < 0) {
fprintf(stderr, "Could not find stream information\n");
goto end;
}
av_dump_format(fmt_ctx, 0, input_filename, 0);
end:
avformat_close_input(&fmt_ctx);
/* note: the internal buffer could have changed, and be != avio_ctx_buffer */
if (avio_ctx)
av_freep(&avio_ctx->buffer);
avio_context_free(&avio_ctx);
av_file_unmap(buffer, buffer_size);
if (ret < 0) {
fprintf(stderr, "Error occurred: %s\n", av_err2str(ret));
return 1;
}
return 0;
}
结构体之间的关系
ffmpeg是C实现的,但是由于这部分的设计和C++很像,所以用类图来表示
AVFormatContext之间说过,是所有ffmpeg结构体的顶层。
它包含了一个AVIOContext结构体。
AVIOContext结构体是文件/流解复用的核心上下文,用于管理媒体文件或者网络流的输入和输出操作。
其中的opaque指向URLContext或者用户自定义的数据类型,作为AVIOContext相关函数,如read、write、seek等函数作用的对象。
URLContext具体协议的实现在URLProtocol,每个URLProtocol都有一个对应的上下文。
即URLContext = xxxContext + ff_xxx_protocol。
AVIOContext
源文件
https://github.com/FFmpeg/FFmpeg/blob/master/libavformat/avio.h
关键字段
-
buffer
:一个用于存储已经从输入源中读取的数据的缓冲区。通常情况下,avio_read
函数从输入源读取数据并将其存储在这个缓冲区中,以便后续处理。 -
buffer_size
:缓冲区的大小,表示buffer
可以存储的最大数据量。 -
pos
:当前位置的偏移量,表示已经从输入源读取的字节数。每次读取数据后,pos
字段会被更新,以跟踪当前的读取位置。 -
buf_ptr
: 当前读取的buffer位置。 -
buf_end
: buffer结束的位置,如果读到的数据比请求的数据少,可能会小于buffer + buffer_size,比如流数据已经被读完的情况。 -
opaque
:一个指向用户自定义数据结构的指针,通常用于传递用户定义的数据结构体或URLContext给avio
操作函数的回调函数。 -
read_packet
:一个函数指针,用于从输入源中读取数据的回调函数。当需要读取数据时,FFmpeg会调用这个函数来填充buffer
和更新pos
等字段。 -
write_packet
:一个函数指针,用于将数据写入输出源的回调函数。当需要写入数据时,FFmpeg会调用这个函数来执行写入操作。 -
seek
:一个函数指针,用于执行定位操作,允许将读取/写入位置移动到指定的偏移量。 -
seekable
:一个标志位,表示输入源是否支持随机访问,即是否可以通过seek
函数进行定位操作。 -
max_packet_size
:表示write_packet
函数可以一次性写入的最大数据量,这有助于控制数据的分块写入。 -
checksum
:用于执行数据完整性检查的字段,通常用于网络传输等场景。
这些字段用于配置AVIOContext
的行为,以满足不同的数据输入/输出需求。read_packet
、write_packet
和seek
等回调函数允许用户自定义数据读取和写入的逻辑,从而使AVIOContext
适应各种不同的数据源和场景。
几个buffer的关系
********************************************************************************** 读数据 *******************************************************************************
*
* | buffer_size |
* |---------------------------------------|
* | |
*
* buffer buf_ptr buf_end
* +---------------+-----------------------+
* |/ / / / / / / /|/ / / / / / /| |
* read buffer: |/ / consumed / | to be read /| |
* |/ / / / / / / /|/ / / / / / /| |
* +---------------+-----------------------+
*
* pos
+-------------------------------------------+------------------------+
* input file: | | |
*+------------------------------------------+------------------------+
*
*
*******************************************************************************
*** 写数据 *******************************************************************************
*
* | buffer_size |
* |--------------------------------------|
* | |
*
* buf_ptr_max
* buffer (buf_ptr) buf_end
* +-----------------------+--------------+
* |/ / / / / / / / / / / /| |
* write buffer: | / / to be flushed / / | |
* |/ / / / / / / / / / / /| |
* +-----------------------+--------------+
* buf_ptr can be in this
* due to a backward seek
*
* pos
* +-------------+------------------------------------------+
* output file: | | |
* +-------------+------------------------------------------+
URLContext
头文件
关键字段
prot
:指向URLProtocol,即具体操作的URLProtocol对象,比如ff_rtp_protocol
const URLProtocol ff_rtp_protocol = {
.name = "rtp",
.url_open = rtp_open,
.url_read = rtp_read,
.url_write = rtp_write,
.url_close = rtp_close,
.url_get_file_handle = rtp_get_file_handle,
.url_get_multi_file_handle = rtp_get_multi_file_handle,
.priv_data_size = sizeof(RTPContext),
.flags = URL_PROTOCOL_FLAG_NETWORK,
.priv_data_class = &rtp_class,
};
其中,.priv_data_size,用于关联RTPContext。
priv_data
:指向具体的协议对象,比如RTPContext
typedef struct RTPContext {
const AVClass *class;
URLContext *rtp_hd, *rtcp_hd, *fec_hd;
int rtp_fd, rtcp_fd;
IPSourceFilters filters;
int write_to_source;
struct sockaddr_storage last_rtp_source, last_rtcp_source;
socklen_t last_rtp_source_len, last_rtcp_source_len;
int ttl;
int buffer_size;
int rtcp_port, local_rtpport, local_rtcpport;
int connect;
int pkt_size;
int dscp;
char *sources;
char *block;
char *fec_options_str;
} RTPContext;
URLProtocol
URLProtocol是FFMPEG操作文件的结构(包括文件,网络数据流等等),包括open、close、read、write、seek等操作。
头文件
关键字段
-
url_open
-
url_read
-
url_write
定义了协议相关的回调函数,类似于url协议的虚函数定义。也类似门面模式,具体的回调函数的方法实现在ff_rtp_protocol等具体的对象中。