第十章.多媒体基础
- 多媒体技术基本概念
- 多媒体相关计算问题
- 常见多媒体标准
- 数据压缩技术
第一节.多媒体技术基本概念
音频相关概念
1.声音的带宽:指声音频率的音波范围。
- 人耳可以听到的声音频率在20Hz~20kHz之间的声波。
- 超声波指声音频率大于20kHz的声波。次声波指声音频率小于20Hz的声波。
- 一般人的说话声音是频率在300Hz~3400Hz之间的声波。经过训练后,说话声波频率范围能够宽一些。
- 乐器的声音频率是在20Hz~20kHz之间的声波。
想将声音跟计算机关联起来,那就需要将相关的信息放入到计算机中处理,声音的信号是一种模拟信号,而在计算机中处理的信号就是一种数字信号,所以需要经历采样的过程。
2.采样:就是在一个连续的声音波形中采点
- 采样频率越高,采点的密集程度就越高,时间间隔越短,音频还原程度也就越好。
- 采样精度就是画的格子数量。(画横线平行于x轴)比如说只画8格,那么你现在能够表达的声音情况就是从1到8。如果画1到256,那么每一个点的精度就高一些了,跟实际情况就更接近一些了。
- 奈奎斯特采样定理:采样频率应为声音最高频率的两倍。因为这样才能保证声音基本不失真。
而固定电话的采样频率一般是8kHz,就是略高于说话声3400Hz的两倍,故固定电话的采样频率就是根据这个定理得来的。而CD音质往往也是40kHz以上也是这个定理,以44k、44.1k居多,这是保证乐器的声音基本不失真来定的采样频率。
在信息处理过程中,首先是采样,然后再进行量化编码,最后就是在计算机中对信息进行处理。
图像相关概念
- 亮度:指画面的明亮程度。
- 色调(红,绿):指整个画面有色调的一个差异。一些整个画面偏红,有的画面偏绿,有色温的差异。
- 饱和度:指色彩的艳丽程度。饱和度低时图片呈现左图的灰色并且不鲜艳;饱和度高时图片整体的颜色显得非常鲜艳。
彩色空间
1.RGB
像普通的电脑显示器(或者彩色显示器)所使用的彩色空间就是RGB空间。RGB能够配置出多种多样的颜色。三种光完全叠加在一起形成白色,所以我们看到的白色光就是多种颜色的混合体。这也就是为什么我们可以使用棱镜把太阳光折射出七彩的光来,就是因为白色光是多种颜色的综合体。
2.YUV(电视,兼容)
YUV是电视中常用的彩色空间。YUV的诞生是考虑兼容性需求提出来的。过程:彩色电视直接使用RGB空间会出现很多问题,使用新的彩色空间有线电视的信号需要发生改变。我们知道在彩色电视出现之前,我们大家使用的是黑白电视。如果你把信号源换了,黑白电视是不支持的是看不了的,如果让同一组信号既能够在黑白电视上看,又能够在彩色电视上看,所以发明了YUV这样的彩色空间。
这种彩色空间中有一个灰度值(或者亮度值),因为在灰白电视机中只需要接收亮度值就可以了。黑白就是使用多级不同的亮度展现出来的。如果你是彩色电视机就把另外两种颜色的分量偏移出来就形成了彩色。所以YUV是一种良好的兼容方案。
3.CMY(CMYK)
CMY是印刷领域用到的彩色空间。其中C对应的是“cyan”。M对应的是“magenta”。Y对应的是“yellow”。所以CMY就是印刷的三原色。因为印刷的三原色经过组合也能够调出不同的颜色来。但是这种印刷的颜色和光的颜色有着本质上的区别,光的三原色使用叠加的原理,印刷的三原色用的相减的原理。
就好比印刷的涂料为什么会显示为黄颜色呢?是因为这种材料能够吸收除了黄色以外所有的光。然后把这种黄色的光反射过来,我们就看到这个物体是黄颜色的。
三种颜色叠加起来形成的颜色是黑色。
但是通过实验,用印刷三原色跳出来的黑色不够黑。有点偏棕色,而且有着三种颜色调出来的成本是比较高昂的。所以就提出了CMYK的彩色空间,其中K表示黑色,所以黑色就不需要用三种颜色去调了。
4.HSV(HSB)
HSV(HSB)称为艺术家空间。从艺术欣赏的角度来划分的。
除此上述彩色空间之外,电视上还能应用的彩色空间是YIQ以及YCBCR(YCBCR是YUV延伸出的彩色空间)。
媒体的种类
- 感觉媒体 : 指人们接触信息的感觉形式。如 : 视觉、听觉、触觉、嗅觉和味觉等。
- 表示媒体 : 指信息的表示形式。如 : 文字、图形、图像、动画、音频和视频等。
- 显示媒体 ( 表现媒体 ) : 表现和获取信息的物理设备。说白了就是输入输出设备。如 : 输入显示媒体键盘、 鼠标和麦克风等;输出显示媒体显示器、打印机和音箱等。
- 存储媒体 : 存储数据的物理设备,如磁盘、光盘和内存等。
- 传输媒体: 传输数据的物理载体,如电缆、光缆和交换设备等。
第二节.多媒体相关计算问题
1.图像容量计算
条件 | 示例 |
---|---|
知道像素,位数 | 每个像素为16位,图像为640 × \times × 480像素(行像素 × \times ×列像素),求容量 : 640 × 480 × 16 ÷ 8 = 614400 B 640 \times 480 \times 16 \div 8 = 614400B 640×480×16÷8=614400B |
知道像素,色数 | 640 × 480 640 \times 480 640×480像素,256色的图像(256色 = 2 8 , 所 以 每 一 个 像 素 为 8 位 2^{8},所以每一个像素为8位 28,所以每一个像素为8位),求容量: 640 × 480 × l o g 2 ( 256 ) ÷ 8 = 307200 B 640 \times 480 \times log_{2}(256) \div 8 = 307200B 640×480×log2(256)÷8=307200B |
2.音频容量计算
容
量
=
采
样
频
率
(
H
z
)
×
量
化
/
采
样
位
数
(
位
)
×
声
道
数
÷
8
容量=采样频率(Hz) \times 量化/采样位数(位) \times 声道数 \div 8
容量=采样频率(Hz)×量化/采样位数(位)×声道数÷8
3.视频容量计算
容
量
=
每
帧
图
像
容
量
(
B
y
t
e
)
×
每
秒
帧
数
×
时
间
+
音
频
容
量
×
时
间
容量=每帧图像容量(Byte) \times 每秒帧数 \times 时间 + 音频容量 \times 时间
容量=每帧图像容量(Byte)×每秒帧数×时间+音频容量×时间
解
(1)根据题目要求,需要每张照片的存储容量算出。
1600
×
1200
×
24
÷
8
=
5760000
B
,
5760000
/
1024
/
1024
=
5.493
M
B
,
128
/
5.493
=
23.3
1600 \times 1200 \times 24 \div 8 = 5760000B,5760000/1024/1024=5.493MB,128/5.493=23.3
1600×1200×24÷8=5760000B,5760000/1024/1024=5.493MB,128/5.493=23.3,故选D.
(2)本题注意单位。
双声道立体声说明会有两个独立的声道,意思就是会有两倍大小的采样精度和采样频率。因为有几个声道就会有几个独立的样本。
采样频率为44.1kHz/s表示每秒钟采样44.1kHz。另外,1位(b)=1比特(bit),所以直接乘即可。
44.1
×
16
×
2
=
1411.2
k
b
44.1 \times 16 \times 2 = 1411.2kb
44.1×16×2=1411.2kb说明每秒钟数据传输1411.2kb。
(3)
6.4
×
30
×
10
=
1920
M
B
6.4 \times 30 \times 10 = 1920MB
6.4×30×10=1920MB
在做这种计算题时,单位一定要看清楚。
同时对于单位的一些细节需要我们注意,在计算机领域,k和K是分大小写的。
传输的时候用的k,以1000为单位;存储的时候用的K,以1024为单位。
第三节.常见多媒体标准
- JPEG是目前最为常见的图像文件的标准,平常照片就存成JPEG格式。扩展名:.jpeg
有损的压缩方式,从哪里能够看出是有损压缩呢?就是打开JPEG文件把图像放大,您会发现图像的有些细节位置像水波纹一样,有些地方是糊的,说明JPEG在压缩图像时使用有损的方式进行压缩,损害了图像的一些质量,但是由于人的一些视觉能够观察的信息是有限的,所以你看不出它是有损的。但是它有比较高的压缩比,这是它的优势,所以得以传承应用下来。
在JPEG中用到了离散余弦这样的算法。JPEG编解码(YUV,RGB,JPEG格式转换) - JPEG-2000是JPEG的升级版。既可以运用了有损压缩算法,也可以运用无损的压缩算法。它的压缩比更高,还不错。目前在专业领域(如医学领域)应用还是很广泛的,例如:医学图像应用。
- 剩下的都是MPEG标准。这些标准都做了不同的定义,虽然这些标准平常我们接触的不是很多,但是运用这些标准的产品接触得很多。
MPEG-1的贡献:定义了VCD和MP3的格式。MP3是MPEG的第三层定义的,所以就叫做MP3。
MPEG-2的贡献:定义了DVD格式。
MPEG-4的贡献:增强了交互性,之前的版本是没有交互性的,所以开始应用于网络,作为可视电话的标准。
MPEG-7的贡献:其实就不是具体的一些定义了,而是多媒体内容描述接口。
MPEG-21的贡献:它是一个标准集成。用意就是把标准集合起来,糅合其它标准,而不是去定义某一块具体事物的规则怎么走,而是做标准集成去了。
第四节.数据压缩基础
一张照片如果不压缩,动则几兆,甚至是数十兆。因为现在的像素越来越高了,这是非常占空间的,如果说存储数据都是原始数据,那么你的磁盘存不了多少数据很快就存满了,所以我们会用到数据压缩技术,把原始信息进行压缩,这样子就节省存储的空间。
比方说:照片使用JPEG格式进行存储 就是这个原因,因为JPEG有比较好的压缩性能,能够节省大量的空间。
压缩的前提是数据需要有冗余才能够压缩。
如:10M的word文档和10M的照片进行压缩,word文档变成两三兆,照片还是10兆。因为word文档有冗余空间即存在压缩的余地。而照片是没有冗余空间的。
就是因为这一系列的冗余才会有各种各样的压缩技术。
- 空间冗余(几何冗余):图像内部相邻像素之间存在较强的相关性多造成的冗余。
如:大面积相同颜色,我们可以记录哪些区域和一个点的情况相同。强调整个画面有大面积相同的东西。 - 时间冗余:视频图像序列中的不同帧之间的相关性所造成的冗余。
如:拍视频是一帧一帧的记录下来,如果帧与帧之间大面积相同只更新不相同的部分。 - 视觉冗余:是指人眼不能感知或不敏感的那部分图像信息。
如:JPEG图片;24位的颜色深度能够表达的颜色数量是很多的,但是人眼能够识别的很少,所以压缩时分了很多级颜色,但我们视觉看起来是同一个颜色,那么压缩时设置为同样的颜色即可。或者说关注的细节不存储即可。 - 信息熵冗余:也称编码冗余,如果图像中平均每个像素使用的比特数大于该图像的信息熵,则图像中存在冗余,这种冗余称为信息熵冗余。
如:其实就是指不同的信息编码冗余度是不一样的,所以我们可以通过合理的冗余编码来降低冗余度以提高效率。 - 结构冗余:是指图像中存在很强的纹理结构或自相似性。
如:某个结构部件有大量的冗余。强调的是某个结构部件有大量的冗余。比方说拍照拍地面,地砖的情况就是每一块花纹都一样,如果说把这个画面都压缩,我可以考虑记录一次一个地板砖的图案,其它位置就告诉也是这种花纹就可以了。 - 知识冗余:是指在有些图像中还包含与某些验证知识有关的信息。
如:就是不记录信息,可以通过知识分析得到数据。
第五节.有损压缩与无损压缩
一类是无损压缩编码法
(
L
o
s
s
l
e
s
s
c
o
m
p
r
e
s
s
i
o
n
c
o
d
i
n
g
)
( Lossless compression coding )
(Losslesscompressioncoding),也称冗余压缩法或熵编码法;另一类是有损压缩编码法
(
L
o
s
s
c
o
m
p
r
e
s
s
i
o
n
c
o
d
i
n
g
)
( Loss compression coding)
(Losscompressioncoding), 也称为熵压缩法。
有损:不能还原。 无损:可以还原。
- 有损压缩有着很高的压缩比。
- 常见的无损编码是哈夫曼编码。在数据结构里面是一个经典的编码方式。把使用频度高的编码编的短一些,使用频度低的编码编的长一些,这样子就使得信息没有破损,但是整体的容量变小。