多媒体技术复习

隔云见月

已于 2022-11-19 19:54:19 修改

阅读量869

点赞数 3

分类专栏：笔记文章标签：媒体

于 2022-11-18 22:06:31 首次发布

本文链接：https://blog.csdn.net/weixin_52603085/article/details/127928805

版权

笔记专栏收录该内容

10 篇文章 2 订阅

订阅专栏

多媒体技术

多媒体技术概述
多媒体数据的采集
数据压缩技术
声音编码压缩技术
数字图形与视频
多媒体通信与网络
多媒体技术的综合应用

多媒体技术概述

信息媒体—承载信息内容的载体
文本：txt、rtf、doc
音频：wav（波形文件）、midi、MP3
图像：bmp、jpg、tif
图形：Quartus、Visio
动画：gif、flash
视频：mpeg、avi

媒体的类型：
感觉媒体：直接作用于人的感官，使人直接产生感觉。
表示媒体：是为了加工、处理和传输感觉媒体而人为构造出来的一种媒体，即各种编码。
显示媒体：感觉媒体与用于传输的电信号之间转换的类媒体，即感觉媒体与计算机的界面。
存储媒体：又称存储介质，保存表示媒体的介质。
传输媒体：用来将媒体从一处传送到另一处的物理载体。

多媒体技术的定义：多媒体技术是利用计算机技术对多种信息进行综合处理、建立逻辑关系，集成为一个具有交互性的系统。

多媒体的特征：
多维化：指媒体信息的多样化它使人与计算机之间的交互不再局限于顺序的、单调的方式，而有充分自由的余地。
集成性：媒体种类一体化。一方面是指能将各种不同的媒体信息有机地进行同步组合；另一方面是指把不同的媒体设备集成在一起，形成多媒体系统。
交互性：人、机对话，是多媒体技术的最关键特征。在多媒体系统中的综合处理上控制自如。
数字化：媒体以数字形式存在。
实时性：声音、动态图像(视频)随时间变化。

多媒体技术的研究内容：数据压缩与编码技术、多媒体数据处理技术、多媒体专用芯片技术、数据存储与传输技术。

MIDI（Musical Instrument Digital Interface）是指乐器数字接口的标准。

多媒体数据的采集

信号采集：取样、保持、量化和编码

奈奎斯特抽样定理：要想抽样后能够不失真地还原出原信号，则抽样频率必须大于两倍信号谱的最高频率

A/D转换器有直接转换法和间接转换法两大类。

数据压缩技术

多媒体应用普及的难题：海量数据的存储、处理和传输。

压缩目的：① 减少存储量，以节省存储开销
② 降低实时传输量，以提高数据传输效率

数据压缩的可能性：各种媒体数据内部存在冗余(相关性)。所以可采用不同编码与解码算法以减弱冗余，达到压缩目的。
数据冗余类型：（是有效解决各种压缩算法的基本依据）
空间冗余、时间冗余、熵冗余、其他冗余（结构冗余、知识冗余）

压缩的指标：压缩比、压缩质量、压缩和解压速度、压缩和解压标准化。

压缩的基本思想：针对数据冗余类型采用合适的压缩方法，建立以少代多或以局部代全体的数据变换关系，从而以最少的数码表示信号。

空间压缩：把相同视觉区当作一个整体进行表示。
时间压缩：把连续帧间的相同部分、或渐变过程中的相似部分当作一个整体、用极少的数据量表示。

熵编码：根据信源符号出现的概率分布特性，用短码字表示出现概率大的信息，用长码字表示出现概率小的信息；从而减少符号序列中的冗余度，提高符号的平均信息量，达到数据压缩的目的。

常用的熵编码方法：

哈夫曼编码（适用于非均匀概率分布的信源编码）
算术编码（适用于概率分布较为均匀的场合）
行程编码（适用于二值图像压缩，是传真编码的压缩方法）

声音编码压缩技术

音频信号可分为两类：语音信号和非语音信号。

声音的频谱有线性频谱和连续频谱之分。

声音的A/D与D/A转换：A/D转换就是把模拟信号转换成数字信号的过程。

数据量（KB）=（采样频率KHz×采样位数bit×声道数×时间秒）/8

声音质量的评价：

一是用声音信号的带宽来衡量声音的质量。
数字录音带DAT (48KHz)
CD (44.1KHz)
FM (22.05KHz)
AM (11.025KHz)
数字电话(8KHz)
二是信噪比：声音信号与噪音信号之间的比。
SNR＝ 20 lg (Vsignal / Vnoise)
Vsignal表示信号强度，Vnoise表示噪声强度；单位为分贝(dB)。
信噪比越高表示音频质量越好
三是主观质量度量。

PCM（脉冲编码调制）原理：
波形编码：使重构语音信号的波形与原始信号波形尽量接近
在这里插入图片描述
均匀量化和非均匀量化（A律压扩、μ律压扩）

增量调制(DM)：DM是对实际的采样信号与预测的采样信号之差的极性进行编码。
在这里插入图片描述
自适应脉冲编码调制（APCM）：根据输入信号幅度大小来动态改变量化阶大小，前向自适应和后向自适应。

差分脉冲编码调制(DPCM)：样本与样本之间存在的时间冗余度，对实际信号值与预测值之差进行量化编码。

自适应差分脉冲编码调制(ADPCM)：综合了APCM的自适应特性和DPCM系统的差分特性。

子带编码：把输入信号的频带分成若干个连续的子带，对每个子带采用单独的编码方案。
优点：各子带根据能量和感觉分别处理

线性预测编码(LPC)：话音信号具有短时间内的相关性。通过分析话音波形来产生声道参数，对声音波形的编码就转化为对这些参数的编码，这就使声音的数据量大大减少。

数字图形与视频

光波：光是一种的电磁波。
可见光是波长在350nm～750nm。
视网膜对可见光的感知：

锥状细胞强光下工作：光强与颜色。
柱状细胞弱光下工作：光强。

RGB: 显示器信号；
HSI：人眼识别；色调(Hue)、饱和度(saturation)和亮度(Intensity)
YUV：电视信号；为兼容黑白和彩色电视信号，亮度Y和色度U、V分离。
CMY：彩色印刷；青色(Cyan)、品红(Magenta)、黄(Yellow) ；CMYK增加黑色(blacK)

分辨率
图像深度：表示每个像素的二进制数字位数

真彩色（RGB都用8位二进制表示）、伪彩色（根据像素到彩色表查找）
位图：由图中每个像素的数据组成。每个像素的数据包括：颜色、亮度、属性
矢量图：每个矢量是一个图形实体，它具有颜色、形状、轮廓、大小、位置等属性。

BMP(bitmap)：不压缩，图像文件大
GIF：交错显示（下载时，以较粗分辨率显示，看到全貌）；GIF可以将多幅图像保存为一个文件，从而实现动画。

JPEG算法:连续色调,多级灰度,静态图像的压缩编码方法(彩色、灰度、静止图像)
应用场景：静态图像压缩；图像序列的帧内压缩。
JPEG压缩-解压缩算法
压缩前准备：颜色空间转换为YCbCr，实现亮度色度分离。
在这里插入图片描述
主要步骤：

正向离散余弦变换（FDCT）：通过DCT变换，把能量集中在少数几个系数上。 f(0,0)为直流系数，其他为交流系数
量化：对频率系数进行。目的是减小非“0”系数的幅度以及增加“0”值系数的数目
Z字形扫描/编排：增加连续的“0”系数的个数
使用差分脉冲编码调制（DPCM）对直流系数（DC）进行编码：直流系数DC数值比较大，相邻8*8图像块的DC系数数值变化不大。
使用行程长度编码（RLE）对直流系数（AC）进行编码：交流系数AC的特点是包含有许多连续的“0”系数
熵编码：JPEG建议Huffman编码和自适应二进制算术编码

JPEG标准的可选操作
顺序方式: 每个图象分量的编码一次扫描完成的;
累进方式: 图象分量编码要经过多次扫描才完成。
累进和分层可以适应不同速率的数据传输方式。
缓冲区：需在量化器的输出与熵编码的输入之间,增加一个缓冲区足以存储量化后DCT系数,对缓冲区中存储的DCT系数多次扫描, 分批编码。

两种累进方式：

频谱选择法：只对64个DCT量化系数中某些频带的系数进行编码、传送，随后对其他频带编码、传送，直至全部系数上传完毕为止。
按位逼近法：沿着DCT量化系数有效位方向分段累进编码

分层方式是把原始图象的分辨率分成多层次进行编码，以2的倍数降低分辨率。

图像子采样：对亮度和色度信号分别采用不同的采样频率进行采样。YCbCr格式4:4:4 、4:2:2、4:1:1、4:2:0

视频压缩的关键技术：
帧内图像数据压缩（基于DCT压缩，相当于静态图像压缩）；
帧间图像数据压缩（采用16*16宏块运动补偿技术，消除帧序列之间的时间冗余度）

在这里插入图片描述
I帧压缩编码：DCT–>变换系数量化（量化，Z字扫描，游程编码）压缩大部分冗余–>熵编码

P帧和B帧关键技术——运动补偿（减少时域冗余）
运动补偿是通过参考帧的局部图像来预测、补偿当前的局部图像，它是减少帧序列冗余最有效方法。

宏块(macroblock)为预测单元,当前宏块是参考宏块的移位。每个宏块计算出一个2维运动矢量, 包括运动方向和幅度, 利用运动矢量和先前的图像可预测当前图像。16×16的预测误差，要编码、传送,供解码端恢复图像用。

运动补偿有双向预测和单向预测。

在这里插入图片描述

多媒体通信与网络

服务质量(QoS)是一种抽象概念，用于说明网络服务的“好坏”程度。
典型的QoS参数：吞吐量、延时、延时抖动和差错率、服务可用性
QoS分类：确定型；统计型；尽力型
QoS保证机制：由RSVP提供的保证行服务，具有面向连接的特性；在区分服务(DiffServ)中定义的区分性服务，具有无连接的特性。

多媒体网络的概念：

多媒体网络是计算机网络；电话网络、电视网络可以作为计算机网络的接入网络。
能够传输声音、图像、视频的数据网络
普通数据通信关注准确性；多媒体通信更强调带宽、同步、延时等；准确性不是首要问题
多媒体网络设计网络操作系统、传输媒体、网络设备
重要协议：实时传输协议RTP、实时控制协议RTCP、资源保留设置协议RSVP、实时流媒体播放协议RTSP

网络上的交换技术：

电路交换：整个报文的比特流连续的从源点直达终点，好像在一个管道中传送。
报文交换：整个报文先传输到相邻的结点，全部存储下来后查找转发表，转发到下一个结点。
分组交换：分组交换也称为包交换。单个分组(报文的一部分)传送到相邻结点，传送到相邻结点，存储下来后查找转发表，转发到下一个结点。

传输层协议TCP和UDP是操作系统内核实现的。传输层以下协议用Socket实现。Socket本身并不是协议，而是对TCP/IP协议的封装，是一个调用接口API，通过Socket开发者才能使用TCP/IP协议。

TCP/IP协议中的端口号的范围从0到65535，比如用于浏览网页服务的80端口，用于FTP服务的21端口。

TCP协议（可靠的面向连接服务）提供可靠服务，保证把信息包传送到对方，对信息包的时延要求不高。
UDP协议（不可靠的无连接服务）既不保证传送过程中不丢失信息包，也不保证时延满足应用要求。

GET：获取数据。
POST：修改数据。

应用层协议运行在操作系统之上，而传输层协议继承在操作系统之中。
多媒体应用通常使用UDP协议。

网络层协议IPv4与IPv6
网络层封装IP包；安排传输线路；使用ARP协议将IP 地址转换为MAC地址。
IPv6首部的通信类别和流标识字段提供了QoS支持机制。

与多媒体应用密切相关的协议包括应用层的RTP、RTCP、RTSP和传输层的RSVP 等。

RTP为实时应用提供端到端的运输，但不提供任何服务质量的保证。
RTP->UDP->IP

RTCP是与RTP配合使用的协议。RTCP的主要功能是为应用程序提供会话质量或者广播性能质量的信息。RTCP一般控制在会话带宽的5%内。
RTCP->UDP->IP

RTSP协议以客户/服务器方式工作，它是一个多媒体播放控制协议。制定时较多参考了HTTP/1.1。
RTSP->TCP->IP

RSVP协议允许应用程序为它们的数据流保留带宽。主机使用RSVP向网络请求保留一定带宽，路由器也使用RSVP转发带宽请求。为了执行RSVP协议，在接收端、发送端和路由器中都必需要支持RSVP协议。

由于综合服务IntServ和资源预留协议RSVP都较复杂，很难在大规模的网络中实现，因此IETF提出了新的策略，即区分服务DiffServ。在网络边界将数据流按QoS要求进行简单分类，不同的类别在内部节点的转发中实现不同的转发特性。

多媒体技术的综合应用

智能视频监控

智能视频监控：由机器自动分析视频图像源，从中识别并提取出有用的关键信息，并自动控制机器进行相应动作。
电子眼＋电子脑

学校智能视频监控结构

智能视频监控面临的问题：目标多、遮蔽、画质低、天气影响、严重阴影、多需求、特殊场景等。

超媒体与Web系统

超文本的概念：超文本是一种信息管理技术，以节点作为基本单位，节点其实是一个信息块。它可以是字符文本集合，也可以是屏幕中的一块显示区。在信息组织方面，则是用链把节点构成网状结构，即非线性结构。
超媒体：多媒体+超文本

基于内容的多媒体信息检索

信息检索：根据用户的需求，从信息集合中（如数据库、网络）检索出与用户需求相关的信息子集。
传统检索方法：
基于文本的检索（原理简单，技术成熟：效率低下，人工标注费事费力等）

基于内容检索技术
原理：为每幅图提取特征并进行量化，表示成向量空间；将用户的查询转化成向量；并与已有向量空间进行相似度匹配计算。

基于内容的图像检索（图像特征的提取、分析及匹配）
基于内容的视频检索（镜头检测，关键帧提取）
基于内容的语音检索（语音识别与处理）

多模态学习

多模态学习指建立模型使计算机学习多个模态的信息，并且实现模态间信息的融合、交流和转换。
典型应用：视听语音识别、图文情感分析、协同标注、多模态转化、多模态检索