音视频开发——基础知识篇

1、视频传输原理

        视频是利用人眼短暂停留的原理,通过连续播放一系列的图片使人产生画面里的人物在运动的感觉。但是视频里面通常会有大量的重复信息。例如早期拍电影用胶卷,一个演员坐在房间内的椅子上抽烟,一秒钟如果用25张胶卷,那么不同胶卷拍下来的内容有相同也有不同,不同的是演员的动作,神态;相同的是房间内的一切布局。在数字化的今天,为了方便视频的传输,肯定是不喜欢重复传输视频中每一张照片的同样的信息。因此,如果根据一些协议,在发送端把重复的信息去掉,在接收端把重复的信息恢复出来,就可以大幅度的提高视频文件的传输。这种协议就叫做视频压缩标准,例如H.264。

        视频有H.264编码格式进行压缩,音频同样也有AAC编码格式进行压缩。视频和音频在压缩后会显著的降低存储空间和在网络上的传输时间。但是当我们在播放视频的时候,是需要把视频和音频解码出来才能够正常的去播放。

2、音视频传输到播放的基本过程

        音视频播放主要分为在线播放和本地播放。在线播放就是像我们看直播,刷抖音等等,这样的视频我们统称为流媒体;本地播放就是我们观看在手机存储空间内已经有的视频文件,不需要网络连接,比如我拍了一段跳舞的视频,拍摄完成后,在手机上直接就能看。

        本文主要讲一下流媒体的播放步骤:解协议->解封装->解码->音视频同步->播放。如果是本地播放的话,就没有解协议这一步骤。

        详细步骤看下图:

看着很复杂,其实就是利用协议进行一层一层的解析。

3、编码和解码

        我们在1和2中已经了解了视频的传输原理和传输过程。在完成传输的过程中发送方和接收方都要遵守同样的编码约定。先来看两个简单的概念。

        帧(frame):简单的理解为一张图片,类似于1中提到的每一张胶卷。

        帧率(fps):每秒播放多少帧,frame per second,游戏都玩过咯,fps。

在视频传输的过程中,编码器对每一帧的图像都会进行编码,然后再传输。

        编码器将多张图像进行编码后生产成一段一段的 GOP ( Group of Pictures ,图像组) , 解码器在播放时则是读取一段一段的 GOP 进行解码后读取画面再渲染显示。GOP  是一组连续的画面,由一张 I 帧和数张 B / P 帧组成,是视频图像编码器和解码器存取的基本单位,它的排列顺序将会一直重复到影像结束。I 帧是内部编码帧(也称为关键帧),P帧是前向预测帧(前向参考帧),B 帧是双向内插帧(双向参考帧)。简单地讲,I 帧是一个完整的画面,而 P 帧和 B 帧记录的是相对于 I 帧的变化。如果没有 I 帧,P 帧和 B 帧就无法解码。

在H.264压缩标准中I帧、P帧、B帧用于表示传输的视频画面。

        就像下图:

4、I帧、P帧、B帧,GOP

4.1、I帧

        I帧:即Intra-coded picture(帧内编码图像帧),I帧表示关键帧,你可以理解为这一帧画面的完整保留;解码时只需要本帧数据就可以完成(因为包含完整画面)。又称为内部画面 (intra picture),I 帧通常是每个 GOP的第一个帧,经过适度地压缩,做为随机访问的参考点,可以当成图象。采用I帧压缩可达到1/6的压缩比而无明显的压缩痕迹。

【I帧特点】

  1. 它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输;
  2. 解码时仅用I帧的数据就可重构完整图像;
  3. I帧描述了图像背景和运动主体的详情;
  4. I帧不需要参考其他画面而生成;
  5. I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);
  6. I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧;
  7. I帧不需要考虑运动矢量;
  8. I帧所占数据的信息量比较大。

【I帧编码流程】

  1. 进行帧内预测,决定所采用的帧内预测模式。
  2. 像素值减去预测值,得到残差。
  3. 对残差进行变换和量化。
  4. 变长编码和算术编码。
  5. 重构图像并滤波,得到的图像作为其它帧的参考帧。

        在视频画面播放过程中,若I帧丢失了,则后面的P帧也就随着解不出来,就会出现视频画面黑屏的现象;若P帧丢失了,则视频画面会出现花屏、马赛克等现象。

4.2、P帧

        P帧:即Predictive-coded Picture(前向预测编码图像帧)。P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面(也就是差别帧,P帧没有完整画面数据,只有与前一帧的画面差别的数据)。

【P帧的预测与重构】
  P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。

【P帧特点】

  1. P帧是I帧后面相隔1~2帧的编码帧;
  2. P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差);
  3. 解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像;
  4. P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧;
  5. P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧;
  6. 由于P帧是参考帧,它可能造成解码错误的扩散;
  7. 由于是差值传送,P帧的压缩比较高。

4.3、B帧

        B帧:即Bidirectionally predicted picture(双向预测编码图像帧)。B帧是双向差别帧,也就是B帧记录的是本帧与前后帧的差别,换言之,要解码B帧,不仅要取得之前的缓存画面,还要解码之后的画面,通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高,但是解码时CPU会比较累。可以理解为对于B帧来说,记录的是帧序列中与自己前后相邻的(I帧,P帧)之间的差值,会很小。在I帧和P帧(P帧和P帧)之间会有很多的B帧。

        以下是我个人的理解:开始桌子上只有一个碗,最后桌子上共有一个碗和一双筷子。那么I帧记录的就是碗;P帧记录的是与I帧不同的部分,也就是筷子;那这筷子怎么来的?不能凭空出现,那样会显得很卡,所以B帧就记录下这个筷子来到桌子上的运动轨迹。

【B帧的预测与重构】
        B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。采用运动预测的方式进行帧间双向预测编码。

【B帧特点】

  1. B帧是由前面的I或P帧和后面的P帧来进行预测的;
  2. B帧传送的是它与前面的I帧或P帧和后面的P帧之间的预测误差及运动矢量;
  3. B帧是双向预测编码帧;
  4. B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确;
  5. B帧不是参考帧,不会造成解码错误的扩散

【为什么需要B帧】

         从上面的看,我们知道I和P的解码算法比较简单,资源占用也比较少,I只要自己完成就行了,P呢,也只需要解码器把前一个画面缓存一下,遇到P时就使用之前缓存的画面就好了,如果视频流只有I和P,解码器可以不管后面的数据,边读边解码,线性前进,大家很舒服。那么为什么还要引入B帧?

        网络上的电影很多都采用了B帧,因为B帧记录的是前后帧的差别,比P帧能节约更多的空间,但这样一来,文件小了,解码器就麻烦了,因为在解码时,不仅要用之前缓存的画面,还要知道下一个I或者P的画面(也就是说要预读预解码),而且,B帧不能简单地丢掉,因为B帧其实也包含了画面信息,如果简单丢掉,并用之前的画面简单重复,就会造成画面卡(其实就是丢帧了),并且由于网络上的电影为了节约空间,往往使用相当多的B帧,B帧用的多,对不支持B帧的播放器就造成更大的困扰,画面也就越卡。

【显示和解码顺序示意图】

注:这个图可能看不懂,可以看下面的5.2。

4.4、GOP(序列)和IDR

        在H264中图像以序列为单位进行组织,一个序列是一段图像编码后的数据流。一个序列的第一个图像叫做 IDR 图像立即刷新图像),IDR 图像都是 I 帧图像。H.264 引入 IDR 图像是为了解码的重同步,当解码器解码到 IDR 图像时,立即将参考帧队列清空,将已解码的数据全部输出或抛弃,重新查找参数集,开始一个新的序列。这样,如果前一个序列出现重大错误,在这里可以获得重新同步的机会。IDR图像之后的图像永远不会使用IDR之前的图像的数据来解码。
        一个序列就是一段内容差异不太大的图像编码后生成的一串数据流。当运动变化比较少时,一个序列可以很长,因为运动变化少就代表图像画面的内容变动很小,所以就可以编一个I帧,然后一直P帧、B帧了。当运动变化多时,可能一个序列就比较短了,比如就包含一个I帧和3、4个P帧。
        在视频编码序列中,GOP即Group of picture(图像组),指两个I帧之间的距离,Reference(参考周期)指两个P帧之间的距离。两个I帧之间形成一组图片,就是GOP(Group Of Picture)。

【GOP示意图】

5、PTS和DTS

        到这里的时候,我很懵逼,因为只知道 I帧 是GOP的第一帧;P帧记录了和 I帧 的区别;那么B帧是怎么取出来的呢?有规律吗?

        P帧需要参考前面的I帧或P帧才可以生成一张完整的图片,而B帧则需要参考前面I帧或P帧及其后面的一个P帧才可以生成一张完整的图片。这样就带来了一个问题:在视频流中,先到来的 B 帧无法立即解码,需要等待它依赖的后面的 I、P 帧先解码完成,这样一来播放时间与解码时间不一致了,顺序打乱了,那这些帧该如何播放呢?这时就引入了另外两个概念:DTS PTS

5.1、PTS和DTS的概念

DTS(Decoding Time Stamp):即解码时间戳,这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。
PTS(Presentation Time Stamp):即显示时间戳,这个时间戳用来告诉播放器该在什么时候显示这一帧的数据。

5.2、编码顺序

        虽然 DTS、PTS 是用于指导播放端的行为,但它们是在编码的时候由编码器生成的。

        在视频采集的时候是录制一帧就编码一帧发送一帧的,在编码的时候会生成 PTS,这里需要特别注意的是 frame(帧)的编码方式,在通常的场景中,编解码器编码一个 I 帧,然后向后跳过几个帧,用编码 I 帧作为基准帧对一个未来 P 帧进行编码,然后跳回到 I 帧之后的下一个帧。编码的 I 帧和 P 帧之间的帧被编码为 B 帧。之后,编码器会再次跳过几个帧,使用第一个 P 帧作为基准帧编码另外一个 P 帧,然后再次跳回,用 B 帧填充显示序列中的空隙。这个过程不断继续,每 12 到 15 个 P 帧和 B 帧内插入一个新的 I 帧。P 帧由前一个 I 帧或 P 帧图像来预测,而 B 帧由前后的两个 P 帧或一个 I 帧和一个 P 帧来预测,因而编解码和帧的显示顺序有所不同,如下所示:

假设编码器采集到的帧是这个样子的:

I B B P B B P 

那么它的显示顺序,也就是PTS应该是这样:

1 2 3 4 5 6 7  

编码器的编码顺序是:

1 4 2 3 7 5 6 

推流顺序也是按照编码顺序去推的,即

I P B B P B B 

那么接收断收到的视频流也就是

I P B B P B B 

这时候去解码,也是按照收到的视频流一帧一帧去解的了,接收一帧解码一帧,因为在编码的时候已经按照 I、B、P 的依赖关系编好了,接收到数据直接解码就好了。那么解码顺序是:

     I P B B P B B
DTS:1 2 3 4 5 6 7
PTS:1 4 2 3 7 5 6

另外,并不是一定要使用B帧。在实时互动直播系统中,很少使用B帧。主要的原因是压缩和解码B帧时,由于要双向参考,所以它需要缓冲更多的数据,且使用的CPU也会更高。由于实时性的要求,所以一般不使用它。不过对于播放器来说,遇到带有B帧的H264数据是常有的事儿。在没有B帧的情况下,存放帧的顺序和显示帧的顺序就是一样的,PTS和DTS的值也是一样的。

参考资料:

I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系

音视频同步原理及实现

音视频入门系列-音视频基础知识篇(音视频播放原理)

  • 14
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值