视频叠加字幕和图标(在某些地方也叫叠加OSD)在很多场合都很有用,比如电视台在直播的节目上叠加台标;美女主播在直播时在视频上加上自己喜爱的饰物或大头贴以增加娱乐的气氛;电影播放时在视频下方显示中英文字幕。正因为叠加字幕和图标的技术用得比较广,在我们日常工作中可能经常被用到,所以我们作为程序员有必要掌握这种技术。
一般地,视频制作、处理和发布的流程为:采集、编码、保存为文件,然后分享,而在用户端,对视频的处理一般是:读取文件、视频解码、显示。我们要叠加字幕首先要确定要在哪个阶段叠加,是在发布端(制作端)还是在用户端。如果要把字幕固化到视频(比如,一些外文电影的字幕已经打印到原视频图像上,用户不需要另外找字幕文件),这时候就应该在发布端处理好字幕。而如果是在用户端叠加,那么字幕可以不固化到视频上,我们可以在显示视频的时候才把字幕输出或显示上去。针对前面两种不同阶段的叠加引出两种常见的叠加字幕的技术实现方式。第一种方式是在视频渲染的时候叠加上去。我们知道用OpenGL,Direct3D、GDI等图像渲染API能将视频图像渲染到界面上,那么字幕也可以用这些API画到界面的某个位置上,按先画视频图像再画字幕的的顺序输出图像,图形绘制操作是在显卡的后备缓存或前向缓存中进行,最终合成的画面是在显存里面存储,并没有修改原视频。另外一种方式修改原视频的像素,将原图像上指定位置的像素值用字符图像的像素值代替,相当于将视频图像和字幕图像两个图像的像素进行混合,混合原则是根据字幕图像的文字颜色或Alpha通道值来决定目标像素值(什么是Alpha通道以及Alpha通道有什么用,后续博文中会进行解释)。第二种叠加字幕方式因为修改了视频像素,字幕已经合成到视频ÿ