H264码流打包分析(精华)|实现RTP协议的H.264视频传输系统

最新推荐文章于 2024-05-03 07:00:00 发布

音视频开发老马

最新推荐文章于 2024-05-03 07:00:00 发布

阅读量1k

点赞数

分类专栏：流媒体服务器 Android音视频开发音视频开发文章标签：音视频 c++ 视频编解码实时音视频 webrtc

本文链接：https://blog.csdn.net/yinshipin007/article/details/126681601

版权

H264码流打包分析

SODB　数据比特串－－＞最原始的编码数据

RBSP　原始字节序列载荷－－＞在SODB的后面填加了结尾比特（RBSP trailing bits　一个bit“1”）若干比特“0”,以便字节对齐。

EBSP　扩展字节序列载荷-- >在RBSP基础上填加了仿校验字节（0X03）它的原因是：　在NALU加到Annexb上时，需要填加每组NALU之前的开始码 StartCodePrefix,如果该NALU对应的slice为一帧的开始则用4位字节表示，ox00000001,否则用3位字节表示 ox000001.为了使NALU主体中不包括与开始码相冲突的，在编码时，每遇到两个字节连续为0，就插入一个字节的0x03。解码时将0x03去掉。也称为脱壳操作。

h264的功能分为两层，视频编码层（VCL）和网络提取层（NAL）

VCL数据即被压缩编码后的视频数据序列。在VCL数据要封装到NAL单元中之后，才可以用来传输或存储。NAL单元格式如下图：

Nal头

EBSP

Nal头

EBSP

Nal头

EBSP

NAL单元
每个NAL单元是一个一定语法元素的可变长字节字符串，包括包含一个字节的头信息（用来表示数据类型），以及若干整数字节的负荷数据。一个NAL单元可以携带一个编码片、A/B/C型数据分割或一个序列或图像参数集。

　　NAL单元按RTP序列号按序传送。其中，T为负荷数据类型，占5bit；R为重要性指示位，占2个bit；最后的F为禁止位，占1bit。具体如下：

　　（1）NALU类型位

　　可以表示NALU的32种不同类型特征，类型1～12是H.264定义的，类型24～31是用于H.264以外的，RTP负荷规范使用这其中的一些值来定义包聚合和分裂，其他值为H.264保留。

　　（2）重要性指示位

　　用于在重构过程中标记一个NAL单元的重要性，值越大，越重要。值为0表示这个NAL单元没有用于预测，因此可被解码器抛弃而不会有错误扩散；值高于0表示此NAL单元要用于无漂移重构，且值越高，对此NAL单元丢失的影响越大。

　　（3）禁止位

　　编码中默认值为0，当网络识别此单元中存在比特错误时，可将其设为1，以便接收方丢掉该单元，主要用于适应不同种类的网络环境（比如有线无线相结合的环境）。例如对于从无线到有线的网关，一边是无线的非IP环境，一边是有线网络的无比特错误的环境。假设一个NAL单元到达无线那边时，校验和检测失败，网关可以选择从NAL流中去掉这个NAL单元，也可以把已知被破坏的NAL单元前传给接收端。在这种情况下，智能的解码器将尝试重构这个NAL单元（已知它可能包含比特错误）。而非智能的解码器将简单地抛弃这个NAL单元。NAL单元结构规定了用于面向分组或用于流的传输子系统的通用格式。在H.320和MPEG-2系统中，NAL单元的流应该在NAL单元边界内，每个NAL单元前加一个3字节的起始前缀码。在分组传输系统中，NAL单元由系统的传输规程确定帧界，因此不需要上述的起始前缀码。一组NAL单元被称为一个接入单元，定界后加上定时信息（SEI），形成基本编码图像。该基本编码图像（PCP）由一组已编码的NAL单元组成，其后是冗余编码图像（RCP），它是PCP同一视频图像的冗余表示，用于解码中PCP丢失情况下恢复信息。如果该编码视频图像是编码视频序列的最后一幅图像，应出现序列NAL单元的end，表示该序列结束。一个图像序列只有一个序列参数组，并被独立解码。如果该编码图像是整个NAL单元流的最后一幅图像，则应出现流的end。　

　　H.264采用上述严格的接入单元，不仅使H.264可自适应于多种网络，而且进一步提高其抗误码能力。序列号的设置可发现丢的是哪一个VCL单元，冗余编码图像使得即使基本编码图像丢失，仍可得到较“粗糙”的图像。

实现RTP协议的H.264视频传输系统

1.  引言
       随着信息产业的发展，人们对信息资源的要求已经逐渐由文字和图片过渡到音频和视频，并越来越强调获取资源的实时性和互动性。但人们又面临着另外一种不可避免的尴尬，就是在网络上看到生动清晰的媒体演示的同时，不得不为等待传输文件而花费大量时间。为了解决这个矛盾，一种新的媒体技术应运而生，这就是流媒体技术。流媒体由于具有启动时延小、节省客户端存储空间等优势，逐渐成为人们的首选，流媒体网络应用也在全球范围内得到不断的发展。其中实时流传输协议 RTP 详细说明了在互联网上传递音频和视频的标准数据包格式，它与传输控制协议 RTCP 配合使用，成为流媒体技术最普遍采用的协议之一。
        H.264/AVC 是ITU-T 视频编码专家组（VCEG）和ISO/IEC 动态图像专家组（MPEG ）联合组成的联合视频组（JVT）共同努力制订的新一代视频编码标准，它最大的优势是具有很高的数据压缩比率，在同等图像质量的条件下，H.264 的压缩比是MPEG-2 的2 倍以上,是 MPEG-4的1.5～2 倍。同时，采用视频编码层（VCL）和网络提取层（NAL ）的分层设计，非常适用于流媒体技术进行实时传输。本文就是基于 RTP 协议，对 H.264 视频进行流式打包传输，实现了一个基本的流媒体服务器功能，同时利用开源播放器VLC 作为接收端，构成一个完整的H.264 视频传输系统。

2. RTP 协议关键参数的设置

RTP 协议是 IETF 在 1996 年提出的适合实时数据传输的新型协议。RTP 协议实际上是由实时传输协议RTP（Real-time Transport Protocol）和实时传输控制协议RTCP（Real-time Transport Control Protocol）两部分组成。RTP 协议基于多播或单播网络为用户提供连续媒体数据的实时传输服务；RTCP 协议是 RTP 协议的控制部分，用于实时监控数据传输质量，为系统提供拥塞控制和流控制。RTP 协议在RFC3550 中有详细介绍。每一个 RTP 数据包都由固定包头（Header ）和载荷（Payload）两个部分组成，其中包头前12个字节的含义是固定的，而载荷则可以是音频或视频数据。RTP 固定包头的格式如图1所示：

       其中比较关键的参数设置解释如下：
      （1）标示位（M ）：1 位，该标示位的含义一般由具体的媒体应用框架（profile ）定义，目的在于标记处RTP 流中的重要事件。
     （2）载荷类型（PT）：7 位，用来指出RTP负载的具体格式。在RFC3551中，对常用的音视频格式的RTP 传输载荷类型做了默认的取值规定，例如，类型2 表明该RTP数据包中承载的是用ITU G.721 算法编码的语音数据，采用频率为 8000HZ，并且采用单声道。
    （3）序号:16 位，每发送一个 RTP 数据包，序号加 1。接受者可以用它来检测分组丢失和恢复分组顺序。
   （4）时间戳：32 位，时间戳表示了 RTP 数据分组中第一个字节的采样时间，反映出各RTP 包相对于时间戳初始值的偏差。对于RTP 发送端而言，采样时间必须来源于一个线性单调递增的时钟。
       从 RTP 数据包的格式不难看出，它包含了传输媒体的类型、格式、序列号、时间戳以及是否有附加数据等信息。这些都为实时的流媒体传输提供了相应的基础。而传输控制协议RTCP为 RTP传输提供了拥塞控制和流控制，它的具体包结构和各字段的含义可参考RFC3550，此处不再赘述。

最低0.47元/天解锁文章

音视频开发老马

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
H264码流打包分析(精华)|实现RTP协议的H.264视频传输系统

SODB　数据比特串－－＞最原始的编码数据RBSP　原始字节序列载荷－－＞在SODB的后面填加了结尾比特（RBSP trailing bits　一个bit“1”）若干比特“0”,以便字节对齐。EBSP　扩展字节序列载荷-- >在RBSP基础上填加了仿校验字节（0X03）它的原因是：　在NALU加到Annexb上时，需要填加每组NALU之前的开始码 StartCodePrefix,如果该NALU对应的slice为一帧的开始则用4位字节表示，ox00000001,否则用3位字节表示 ox000001.为了使NA
复制链接

扫一扫

专栏目录