多媒体技术复习

多媒体技术概述

信息媒体—承载信息内容的载体
文本:txt、rtf、doc
音频:wav(波形文件)、midi、MP3
图像:bmp、jpg、tif
图形:Quartus、Visio
动画:gif、flash
视频:mpeg、avi

媒体的类型:
感觉媒体:直接作用于人的感官 ,使人直接产生感觉。
表示媒体:是为了加工、处理和传输感觉媒体而人为构造出来的一种媒体 ,即各种编码。
显示媒体:感觉媒体与用于传输的电信号之间转换的类媒体,即感觉媒体与计算机的界面。
存储媒体:又称存储介质,保存表示媒体的介质。
传输媒体:用来将媒体从一处传送到另一处的物理载体。

多媒体技术的定义:多媒体技术是利用计算机技术对多种信息进行综合处理、建立逻辑关系集成为一个具有交互性的系统。

多媒体的特征:
多维化:指媒体信息的多样化它使人与计算机之间的交互不再局限于顺序的、单调的方式,而有充分自由的余地。
集成性:媒体种类一体化。一方面是指能将各种不同的媒体信息有机地进行同步组合;另一方面是指把不同的媒体设备集成在一起,形成多媒体系统。
交互性:人、机对话,是多媒体技术的最关键特征。在多媒体系统中的综合处理上控制自如。
数字化:媒体以数字形式存在。
实时性:声音、动态图像(视频)随时间变化。

多媒体技术的研究内容:数据压缩与编码技术、多媒体数据处理技术、多媒体专用芯片技术、数据存储与传输技术。

MIDI(Musical Instrument Digital Interface)是指乐器数字接口的标准。

多媒体数据的采集

信号采集:取样、保持、量化和编码

奈奎斯特抽样定理:要想抽样后能够不失真地还原出原信号,则抽样频率必须大于两倍信号谱的最高频率

A/D转换器有直接转换法和间接转换法两大类。

数据压缩技术

多媒体应用普及的难题:海量数据的存储、处理和传输

压缩目的:① 减少存储量,以节省存储开销
② 降低实时传输量,以提高数据传输效率

数据压缩的可能性:各种媒体数据内部存在冗余(相关性)。所以可采用不同编码与解码算法以减弱冗余,达到压缩目的。
数据冗余类型:(是有效解决各种压缩算法的基本依据)
空间冗余、时间冗余、熵冗余、其他冗余(结构冗余、知识冗余)

压缩的指标:压缩比、压缩质量、压缩和解压速度、压缩和解压标准化。

压缩的基本思想:针对数据冗余类型采用合适的压缩方法,建立以少代多以局部代全体的数据变换关系,从而以最少的数码表示信号。

空间压缩:把相同视觉区当作一个整体进行表示。
时间压缩:把连续帧间的相同部分、或渐变过程中的相似部分当作一个整体、用极少的数据量表示。

熵编码:根据信源符号出现的概率分布特性,用短码字表示出现概率大的信息,用长码字表示出现概率小的信息;从而减少符号序列中的冗余度,提高符号的平均信息量,达到数据压缩的目的。

常用的熵编码方法:

  • 哈夫曼编码(适用于非均匀概率分布的信源编码)
  • 算术编码(适用于概率分布较为均匀的场合)
  • 行程编码(适用于二值图像压缩,是传真编码的压缩方法)
    请添加图片描述

声音编码压缩技术

音频信号可分为两类:语音信号和非语音信号。

声音的频谱有线性频谱和连续频谱之分。

声音的A/D与D/A转换:A/D转换就是把模拟信号转换成数字信号的过程。

数据量(KB)=(采样频率KHz×采样位数bit×声道数×时间秒)/8

声音质量的评价:

  • 一是用声音信号的带宽来衡量声音的质量。
    数字录音带DAT (48KHz)
    CD (44.1KHz)
    FM (22.05KHz)
    AM (11.025KHz)
    数字电话(8KHz)
  • 二是信噪比:声音信号与噪音信号之间的比。
    SNR= 20 lg (Vsignal / Vnoise)
    Vsignal表示信号强度,Vnoise表示噪声强度;单位为分贝(dB)。
    信噪比越高表示音频质量越好
  • 三是主观质量度量。

PCM(脉冲编码调制)原理:
波形编码:使重构语音信号的波形与原始信号波形尽量接近
在这里插入图片描述
均匀量化和非均匀量化(A律压扩、μ律压扩)

增量调制(DM):DM是对实际的采样信号与预测的采样信号之差的极性进行编码。
在这里插入图片描述
自适应脉冲编码调制(APCM):根据输入信号幅度大小来动态改变量化阶大小,前向自适应和后向自适应。

差分脉冲编码调制(DPCM):样本与样本之间存在的时间冗余度,对实际信号值与预测值之差进行量化编码。

自适应差分脉冲编码调制(ADPCM):综合了APCM的自适应特性和DPCM系统的差分特性。

子带编码:把输入信号的频带分成若干个连续的子带,对每个子带采用单独的编码方案。
优点:各子带根据能量和感觉分别处理

线性预测编码(LPC):话音信号具有短时间内的相关性。 通过分析话音波形来产生声道参数,对声音波形的编码就转化为对这些参数的编码,这就使声音的数据量大大减少。

数字图形与视频

光波:光是一种的电磁波。
可见光是波长在350nm~750nm。
视网膜对可见光的感知:

  • 锥状细胞强光下工作:光强与颜色。
  • 柱状细胞弱光下工作:光强。

RGB: 显示器信号;
HSI:人眼识别;色调(Hue)、饱和度(saturation)和亮度(Intensity)
YUV:电视信号;为兼容黑白和彩色电视信号,亮度Y和色度U、V分离。
CMY:彩色印刷;青色(Cyan)、品红(Magenta)、黄(Yellow) ;CMYK增加黑色(blacK)

分辨率
图像深度:表示每个像素的二进制数字位数

真彩色(RGB都用8位二进制表示)、伪彩色(根据像素到彩色表查找)
位图:由图中每个像素的数据组成。每个像素的数据包括:颜色、亮度、属性
矢量图:每个矢量是一个图形实体,它具有颜色、形状、轮廓、大小、位置等属性。

BMP(bitmap):不压缩,图像文件大
GIF:交错显示(下载时,以较粗分辨率显示,看到全貌);GIF可以将多幅图像保存为一个文件,从而实现动画。

JPEG算法:连续色调,多级灰度,静态图像的压缩编码方法(彩色、灰度、静止图像)
应用场景:静态图像压缩;图像序列的帧内压缩。
JPEG压缩-解压缩算法
压缩前准备:颜色空间转换为YCbCr,实现亮度色度分离。
在这里插入图片描述
主要步骤:

  • 正向离散余弦变换(FDCT):通过DCT变换,把能量集中在少数几个系数上。 f(0,0)为直流系数,其他为交流系数
  • 量化:对频率系数进行。目的是减小非“0”系数的幅度以及增加“0”值系数的数目
  • Z字形扫描/编排:增加连续的“0”系数的个数
  • 使用差分脉冲编码调制(DPCM)对直流系数(DC)进行编码:直流系数DC数值比较大,相邻8*8图像块的DC系数数值变化不大。
  • 使用行程长度编码(RLE)对直流系数(AC)进行编码:交流系数AC的特点是包含有许多连续的“0”系数
  • 熵编码:JPEG建议Huffman编码和自适应二进制算术编码

JPEG标准的可选操作
顺序方式: 每个图象分量的编码一次扫描完成的;
累进方式: 图象分量编码要经过多次扫描才完成。
累进和分层可以适应不同速率的数据传输方式。
缓冲区:需在量化器的输出与熵编码的输入之间,增加一个缓冲区足以存储量化后DCT系数,对缓冲区中存储的DCT系数多次扫描, 分批编码。

两种累进方式:

  • 频谱选择法:只对64个DCT量化系数中某些频带的系数进行编码、传送,随后对其他频带编码、传送,直至全部系数上传完毕为止。
  • 按位逼近法:沿着DCT量化系数有效位方向分段累进编码

分层方式是把原始图象的分辨率分成多层次进行编码,以2的倍数降低分辨率。

图像子采样:对亮度和色度信号分别采用不同的采样频率进行采样。YCbCr格式4:4:4 、4:2:2、4:1:1、4:2:0

视频压缩的关键技术:
帧内图像数据压缩(基于DCT压缩,相当于静态图像压缩);
帧间图像数据压缩(采用16*16宏块运动补偿技术,消除帧序列之间的时间冗余度 )

在这里插入图片描述
I帧压缩编码:DCT–>变换系数量化(量化,Z字扫描,游程编码)压缩大部分冗余–>熵编码
在这里插入图片描述
P帧和B帧关键技术——运动补偿(减少时域冗余)
运动补偿是通过参考帧的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余最有效方法。

宏块(macroblock)为预测单元,当前宏块是参考宏块的移位。每个宏块计算出一个2维运动矢量, 包括运动方向和幅度, 利用运动矢量和先前的图像可预测当前图像。16×16的预测误差,要编码、传送,供解码端恢复图像用。

运动补偿有双向预测和单向预测。

在这里插入图片描述

多媒体通信与网络

服务质量(QoS)是一种抽象概念,用于说明网络服务的“好坏”程度。
典型的QoS参数:吞吐量、延时、延时抖动和差错率、服务可用性
QoS分类:确定型;统计型;尽力型
QoS保证机制:由RSVP提供的保证行服务,具有面向连接的特性;在区分服务(DiffServ)中定义的区分性服务,具有无连接的特性。

多媒体网络的概念:

  • 多媒体网络是计算机网络;电话网络、电视网络可以作为计算机网络的接入网络
  • 能够传输声音、图像、视频的数据网络
  • 普通数据通信关注准确性;多媒体通信更强调带宽、同步、延时等;准确性不是首要问题
  • 多媒体网络设计网络操作系统、传输媒体、网络设备
  • 重要协议:实时传输协议RTP、实时控制协议RTCP、资源保留设置协议RSVP、实时流媒体播放协议RTSP

网络上的交换技术:

  • 电路交换:整个报文的比特流连续的从源点直达终点,好像在一个管道中传送。
  • 报文交换:整个报文先传输到相邻的结点,全部存储下来后查找转发表,转发到下一个结点。
  • 分组交换:分组交换也称为包交换。单个分组(报文的一部分)传送到相邻结点,传送到相邻结点,存储下来后查找转发表,转发到下一个结点。

传输层协议TCP和UDP是操作系统内核实现的。传输层以下协议用Socket实现。Socket本身并不是协议,而是对TCP/IP协议的封装,是一个调用接口API,通过Socket开发者才能使用TCP/IP协议。

TCP/IP协议中的端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口。

TCP协议(可靠的面向连接服务)提供可靠服务,保证把信息包传送到对方,对信息包的时延要求不高。
UDP协议(不可靠的无连接服务)既不保证传送过程中不丢失信息包,也不保证时延满足应用要求。

GET:获取数据。
POST:修改数据。

应用层协议运行在操作系统之上,而传输层协议继承在操作系统之中。
多媒体应用通常使用UDP协议。

网络层协议IPv4与IPv6
网络层封装IP包;安排传输线路;使用ARP协议将IP 地址转换为MAC地址。
IPv6首部的通信类别流标识字段提供了QoS支持机制。

与多媒体应用密切相关的协议包括应用层的RTP、RTCP、RTSP和传输层的RSVP 等。

RTP为实时应用提供端到端的运输,但不提供任何服务质量的保证。
RTP->UDP->IP

RTCP是与RTP配合使用的协议。RTCP的主要功能是为应用程序提供会话质量或者广播性能质量的信息。RTCP一般控制在会话带宽的5%内。
RTCP->UDP->IP

RTSP协议以客户/服务器方式工作,它是一个多媒体播放控制协议。制定时较多参考了HTTP/1.1。
RTSP->TCP->IP

RSVP协议允许应用程序为它们的数据流保留带宽。主机使用RSVP向网络请求保留一定带宽,路由器也使用RSVP转发带宽请求。为了执行RSVP协议,在接收端、发送端和路由器中都必需要支持RSVP协议。

由于综合服务IntServ和资源预留协议RSVP都较复杂,很难在大规模的网络中实现,因此IETF提出了新的策略,即区分服务DiffServ。在网络边界将数据流按QoS要求进行简单分类,不同的类别在内部节点的转发中实现不同的转发特性。

多媒体技术的综合应用

智能视频监控

智能视频监控:由机器自动分析视频图像源,从中识别并提取出有用的关键信息,并自动控制机器进行相应动作 。
电子眼+电子脑

学校智能视频监控结构

智能视频监控面临的问题:目标多、遮蔽、画质低、天气影响、严重阴影、多需求、特殊场景等。

超媒体与Web系统

超文本的概念:超文本是一种信息管理技术,以节点作为基本单位,节点其实是一个信息块。它可以是字符文本集合,也可以是屏幕中的一块显示区。在信息组织方面,则是用链把节点构成网状结构,即非线性结构。
超媒体:多媒体+超文本

基于内容的多媒体信息检索

信息检索:根据用户的需求,从信息集合中(如数据库、网络)检索出与用户需求相关的信息子集。
传统检索方法:
基于文本的检索(原理简单,技术成熟:效率低下,人工标注费事费力等)

基于内容检索技术
原理:为每幅图提取特征并进行量化,表示成向量空间;将用户的查询转化成向量;并与已有向量空间进行相似度匹配计算。

  • 基于内容的图像检索(图像特征的提取、分析及匹配)
  • 基于内容的视频检索(镜头检测,关键帧提取)
  • 基于内容的语音检索(语音识别与处理)

多模态学习

多模态学习指建立模型使计算机学习多个模态的信息,并且实现模态间信息的融合、交流和转换。
典型应用:视听语音识别、图文情感分析、协同标注、多模态转化、多模态检索

  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值