ps:本博客内容只针对博主复习期间对考点的一些总结,内容可能并不全面,还望海涵。也欢迎大家补充和指点错误~~
计算机多媒体技术的基本特征:数字化、集成性、交互性和围绕计算机而构成并受计算机控制。计算机及多媒体技术都是建立在数字化的基础之上的。
媒体的分类
-
感觉媒体:直接作用于人的器官,产生感觉(视觉、听觉、嗅觉、味觉、触觉)的媒体。
- 例如:语言、音乐、音响、图形、动画、数据、文字等;
-
表示媒体:用来表示感觉媒体的数据编码,
- 例如:图像编码(JPEG/MPEG)、文本编码(ASCII)、声音编码(MP3)等;
-
感觉媒体转换成表示媒体后,能够在计算机上进行加工处理和传输。
-
表现媒体:指进行信息输入或输出的媒体。
- 例如:键盘、鼠标、扫描仪、话筒、数码相机、摄像机为输入表现媒体,
- 显示器、打印机、扬声器、投影仪等为输出表现媒体。
-
存储媒体:用于存储表示媒体的物理实体。
- 例如:硬盘、光盘等。
-
传输媒体:指传输表示媒体的物理实体。
- 例如:电缆、光缆等。
压缩编码技术
-
数据之所以能压缩是因为原始数据存在很大的冗余度。一般,多媒体数据存在以下几类冗余:
-
空间冗余(几何冗余):自身与其相邻的一些区域存在有规则的相关性;
-
时间冗余:相邻两图像之间呈现较强的相关性;
-
知觉冗余:超出人们感知能力部分的编码称为知觉冗余;
-
信息熵冗余(编码冗余):指一组数据所携带的信息量的冗余;
-
结构冗余:有些图像从大的区域上看存在非常强的纹理结构;
-
知识冗余:有许多图像的理解与某些基础知识有相当大的相关性。例如:人脸图像的固定结构可从我们已知背景知识得到。
-
数据压缩技术
-
无损压缩编码法(冗余压缩法、熵编码法)
- 可逆,无失真压缩,通常采用统计编码技术(哈夫曼编码、算术编码、行程编码)、压缩比较低,2:1~5:1
-
有损压缩编码法(熵压缩法)
- 不可逆,通常分为
-
征抽取:基于模式的编码、分形编码;
-
量化:零记忆量化、直接映射、预测编码、变换编码(后两个最常见);
-
压缩比较高,声音:4:1-8:1,动态视频:100:1~400:1
-
- 不可逆,通常分为
数据压缩标准
-
中国的数字音、视频压缩编码国家标准是 AVS 标准
-
JPEG:采用基于DCT(离散余弦变换)和可变长编码的算法,关键技术是变换编码、量化、差分编码、哈夫曼编码、行程编码;
- JPEG 2000作为更新换代标准与JPEG的最大区别是放弃了JPEG所采用的以离散余弦变换为主的区块编码方式,采用离散小波转换为主的多解析编码方式。
-
MPEG:是IOS制定和发布的视频、音频和数据的压缩标准,兼容性好、压缩比高,数据损失小。
-
采用预测和插补两种帧间编码技术;MPEG视频压缩算法中包含两种基本技术:一种,基于16×16子块的运动补偿技术,用于减少帧序列的时域冗余,一种,基于DCT的压缩,用于减少帧序列的空域冗余,在帧内压缩及帧间预测中均使用DCT变换。
-
MPEG的主要标准
-
MPEG-1:用于数据电话网络上的视频传输,也可用作记录媒体或在Internet上传输音频;
-
MPEG-2:已适用于HDTV(高清晰度电视),实现本是MPEG-3要实现的目标;
-
MPEG-3:为面市就抛弃,画面有轻微扭曲,仅用于音频
-
MPEG-4:提供更强的交互能力,应用于视频电话、视频电子邮件、电子新闻
-
MPEG-7:多媒体内容描述接口,为各类多媒体信息提供一种标准化的描述,支持音视频数据库在存储和检索、广播媒体的选择、因特网个性服务
-
MPEG-21:目标是将不同的协议、标准、技术有机的融合在一起,制定一个开放的多媒体应用框架标准
-
-
-
DVI(数字视频接口)
-
H.261:主要针对在ISDN上实现电信会议应用,特别是面对面的可视电话和视频会议而设计。
-
H.263:主要针对低带宽通信而设计的,能在低带宽下提供比H.261更好的图像效果,现在已基本上代替了H.261。
-
H.264:是视频压缩编码技术的标准
-
H.32x系列标准组成多媒体通信的核心技术标准(ITU制定的)
- H.320标准
- 面向窄带综合业务数字网(N-ISDN),是窄带可视电话系统的通信标准;
- H.323
- 面向无QoS保障的包交换网络上的多媒体通信标准
- H.324
- 是低速率网络(如PSTN)上多媒体通信及终端的标准
- H.320标准
音频数据
-
音频技术的概述——声音的三要素
-
音强:声音的强度,取决于声间的振幅;
-
音色:由混入基音的泛音决定;
-
音调:音调与声音的频率有关;
-
-
音频数据存储和传输
-
在计算机中要存储声音信息就必须数字化,通常需要经过采样、量化、编码的过程。
-
采样:常见的采样频率有:8kHz、11.025 kHz、16 kHz、22.05
kHz(FM广播音质)、44.1 kHz(CD音质)、48 kHz(DVD音频或专业领域);- 采样频率不应低于声音信号最高频率的两倍;
-
量化:
- 用数字来表示音频幅度,把一个幅度范围内的电压用一个数字表示,这个量化级别通常用位(bit)来表示。
- 量化精度/量化分辨率:量化后的样本使用若干位(bit)二进制数来表示,位数的多少反映度量声音波形幅度的精度
- 每个声音样本若用16位(2字节)表示,则声音样本的取值范围是0~65536,精度是1/65536;若用8位(1字节)表示,则取值范围是0-255,精度是1/256;
- 量化精度越高,声音质量越好,需要存储空间越多
-
编码:将声音数据写成计算机的数据格式。
-
文件的字节数=采样频率(Hz)×采样位数(位)×声道数÷8
-
(若要在网络上传输,数据传输率,在上述公式的基础上,将单位由B转换为b,不除以8)
-
-
-
-
音频数据格式
-
WAVE(.wav):能够和原声基本一致,质量高但代价是文件大
-
MOD(.mod):存放乐谱和乐曲,具有回放效果明确、音色种类无限等优点;
-
Layer-3(.mp3):压缩率大,在网络可视电话通信方面应用广泛,音质不能令人满意;
-
Real Audio(.ra):具有强大压缩量和极小的失真,为了解决网络传输带宽资源而设计,主要目标是压缩比和容错性,其次才是音质;
-
CD Audio(.cda):唱片采用的格式,又叫红皮书格式,记录的是波形流,绝对纯正,但缺点是无法编辑,文件长度太大;
-
MIDI(乐器数字接口 .mid):音乐工业的数据通信标准,能够模仿原始乐器的各种演奏技巧甚至无法演奏的效果,不记录对声音的采集,而是记录编曲的音符、音长、音量和击键力度等信息,相当于乐谱,但是是一些乐曲演奏过程中的指令,因此占用存储空间比WAV文件小很多。
-
CMF(Creative 音乐格式 .cmf):Creative公司专用的音乐格式,和MIDI差不多,只是音色和效果上有些特色,专用于FM声卡,兼容性差。
-
颜色
-
颜色属性
-
亮度:光作用于人眼时所引起的明亮程度的感觉;
-
色调:当人眼看到一种或多种波长的光时所产生的彩色的感觉;反映颜色种类,决定颜色的基本特性;
-
饱和度:指颜色的纯度,即参入白光的程度,或是说颜色的深浅程度。
-
-
颜色空间
-
RGB颜色空间:R 红色;G 绿色;B 蓝色;用于计算机平面设计
-
YUV颜色空间(YCrCb颜色空间):Y 代表亮度;uv 代表色差,用于电视、视频信号
-
CMY颜色空间:C 青;M 品红;Y 黄;【K 黑】;用于印刷行业
-
图形与图像
-
图形:放大后不失真与分辨率无关,用计算机绘制而成,常用的矢量图形文件:3DS、DEF、WMF,一般占用存储空间较小
-
图像(位图或点阵图):由像素组成;是输入设备捕捉的实际场景或以数字化形式存储的任意画面;在计算机中存储格式有BMP、TIF等,一般数据量大
-
图形(图像)的主要指标有 分辨率、点距、色彩数(灰度/深度)
-
分辨率:
-
屏幕分辨率:指每英寸的点阵的行数和列数,数值越大,显示质量越好
-
输出分辨率:每英寸的像素点数,衡量输出设备的精度的,数值越大,质量越好
-
-
点距:指两个像素点之间的距离,像素点距的规格越小,显示效果越好;
-
色彩数:每个像素颜色被量化后占用的存储器位数越多,能表达的颜色数目越多,表示深度就越深。
视频数据
- 常见视频文件格式:AVI、wma、mvb、flash、mp4、3GP、Quicktime、RealMedia(rm)、ASF、WMV
流媒体
-
“流”主要指通过网络传输多媒体数据的技术总称。
-
广义上,流媒体指的是使音频和视频形成稳定和连续的传输流和回放流的一系列技术、方法和协议的总称;
-
狭义上,流媒体是相对于传统的下载和回放方式而言的,指的是一种从Internet上获取音频和视频等多媒体数据的新方法,能够支持多媒体数据流的实时传输和实时播放,不用等数据全部下载完之后才能进行回放。
-
目前实现流媒体传输主要有两种方式:
-
顺序流传输(HTTP流式传输):采用顺序下载方式进行传输,可回放已下载部分数据,不能在传输期间对下载速度进行调整,适合高质量多媒体片段,如片头、片尾、广告等;
-
实时流传输:保证带宽与当前网络状况相匹配,使数据实时传送,特别适合现场事件,可进行快进或后退。
-
主要协议:PNA、MMS、RTP、RTCP、RTSP
-