多媒体信息处理及编辑技术(第二章)

前言

        个人对于这一章的学习,其实是比较多内容,并且考试的时候考的也特别多,所以建议各位同志好好的看,但是对于学计算机的人来讲,其实下面这些我们基本学过的,在计算机导论,图像处理等的课程,所以记忆起来比较轻松。然后本章内容分为七章,当然我也是整理别人的笔记,然后自己排版一下,标记一下,课后习题我叫Ai帮忙出的题,大家不喜勿喷。祝大家学习顺利。

一、多媒体信息的种类和特点

  1. 文本

    • 内容:数字、字母、文字。
    • 特点:表达的信息可以给人充分想象空间,多媒体系统中用于清晰表达呈现的信息。
  2. 图形

    • 内容:即矢量图,图形只保存算法和特征点。
    • 特点:相对于图像的大数据量来说,占用的存储空间较小,但屏幕显示时,需要经过重新计算。可以任意放大或缩小且不会失真,但色彩不丰富,无法表现逼真景物。
  3. 图像

    • 内容:由拍成行和列的许多像素点组成,计算机存储每个像素点的颜色信息。也叫位图。
    • 特点:表现层次和色彩较为丰富,能给人现实的场景。
  4. 声音

    • 内容:一般通过计算机声卡和音频编辑处理软件进行采集和处理。
    • 特点:可直接清晰表达意义,引起使用者注意,增强理解,烘托气氛。
  5. 动画

    • 内容:静态图像以一定速度连续播放,每一幅画面称为一帧。利用人的视觉暂留特性(人眼看到的画面在 1/24 秒内不会消失),在一幅画消失前播放下一幅画。
    • 特点:使抽象内容形象化,有较高逼真度,较好的交互性和视觉效果。
  6. 视频

    • 内容:是动态的画面序列,画面以超过每秒 24 帧的速度播放。(电影 —— 每秒 24 幅画面;电视 —— 每秒 25 - 30 幅画面)。
    • 特点:常用于交代事物发展过程。

二、多媒体文字信息的处理与编辑

  1. 英文字符:用 ASCII 编码(利用 7 位二进制数表示,共 128 个元素)。

  2. 汉字:使用 GB2312 编码方式(收录 6763 个汉字)。

  3. 文字:使用 Unicode 编码(又称国际码,统一码,单一码,是计算机科学领域中的业内标准),只规定了符号的二进制代码,Unicode 编码的实现方式为 UTF(Unicode 转换格式),最常用的实现编码为 UTF - 8,除此外还有 UTF - 16、UTF - 32。

  4. 纯文本

    • 内容:只保存文本,不保存格式。常见纯文本格式扩展 ——txt、asp、bat、c、prg、cmd 等。编辑软件 —— 记事本,Notpad、TXT Editor、Notpad++、Quickpad。
  5. 富文本

    • 内容:包括大量符号标记,用于标记粗体,下划线,斜体,或特殊字符及特殊打印格式。常见富文本格式扩展 ——RTF、DOC、DOCX、PDF 等。编辑软件 ——Word、WPS 等。

三、多媒体音频的处理与编辑

  1. 声音三要素

    • 音调:声音的高低,由频率决定。单位 ——Hz。
    • 响度:人主观感觉声音的大小,由振幅和人与声源的距离决定。单位 —— 分贝 /dB。
    • 音色:由发声物体的材料,结构决定。
  2. 信号类型

    • 时间和幅度上都连续的信号称为模拟信号。
    • 时间和幅度上都用离散的数字表示的信号称为数字信号。
    • 模拟信号到数字信号的转换叫模数转换 A/D(Analog to Dijital)。
    • 数字信号到模拟信号的转换叫数模转换 D/A (Dijital to Analog)。
  3. 模数转换过程

    • 计算机处理和存储声音信号之前必须进行模数转换,将模拟音频转化为二进制数,转换过程包括:采样、量化、编码。
    • 采样:把时间轴上连续的信号每隔一段时间就抽取出一个信号的幅度样本。每秒采样的次数称为采样频率,CD 的采样频率为 44.1kHz,表示每秒采样 44100 次。(即声音信号在时间上的离散化叫做采样)。
      • 奈奎斯特采样定理:采样频率至少应为所要录制音频的最高频率的 2 倍,才能保证原模拟信号不丢失。人的听觉范围最高可达 20kHz,根据采样定理,数字音频最高采样频率要达到 44.1kHz。
    • 量化:将采样后的离散信号的幅度用二进制数表示。(即声音信号在幅度上的离散化叫做量化)。
      • 每个采样点能表示的二进制位数称为采样位数或量化位数,常用的采样位数为 8b/s、12b/s、16b/s、20b/s、24b/s。
      • * 未经压缩的数字音频数据传输速率(bit/s)= 采样频率(Hz)* 采样位数(bit)声道数
    • 编码:将采样和量化后的信号转化成数字编码脉冲。最简单的编码方式为二进制编码。
  4. 掩蔽效应

    • 一种频率的声音阻碍听觉系统感受另一种频率的声音。分为频域掩蔽和时域掩蔽。频域掩蔽效应中,强纯音掩盖弱纯音,低频纯音可以有效掩盖高频纯音。掩蔽曲线为非线性。
    • 人的听觉灵敏度随频率改变,人耳对 4kHz 的频率最敏感,在 4kHz 下能察觉出来的声音压力水平(响度)在其他频率下不能被察觉。人耳能感觉到(听觉)的频率范围 20Hz - 20kHz,该频率范围内的声音称为音频 / 可听声。频率小于 20Hz 叫次声,大于 20kHz 叫超声。人声的频率为 80 - 3400Hz,语音频率为 300 - 3000Hz。
  5. 声音信号能被压缩编码的依据

    • 声音信号中存在很大冗余度,可以识别和去除这些冗余度。
    • 人的视觉和听觉器官具有某种不敏感性,利用听觉的掩蔽效应可以抑制与信号同时存在的量化噪声。
    • 声音波形的相邻采样值之间存在很强的相关性。
  6. 音频压缩编码类型

    • 波形编码:利用音频采样值的频率分布规律和相邻采样值之间的相关性进行压缩。保留了原始采样值的细节变化,声音质量较高。包括:脉冲编码调制 PCM,自适应增量调制 ADM,自适应差分脉冲编码调制 ADPCM。
    • 参数编码:对语音参数进行分析合成,从而进行线性预测编码 LPC。
    • 混合型编码:保留参数编码技术的基础上引用波形编码准则。MPEG 音频编码就属于混合编码,且利用了掩蔽效应。
  7. 数字音乐国际标准 ——MIDI

    • 是音乐信息序列交换的标准格式,存储和表达音乐的演奏信息。
    • MIDI 文件相对普通声音文件的优点:1. 所需存储容量小。2. 编辑修改十分灵活。可修改曲子速度,音调,乐器等。
    • MIDI 的标准:GS 标准(日本提出,增大音乐的表现力)、GM 标准(国际 MIDI 生产者协会 MMA 制定的通用 MIDI 标准,有 Windows 系统支持)、XG 标准(增加更多乐器组,扩大 MIDI 标准定义范围)。
  8. 数字音频的文件格式

    • WAV 格式:采用 44.1kHz 采样频率和 16 位量化位数,记录了音乐波形采样。优点:音质非常好,被大量软件支持。缺点:文件过大,不利于交流传播。
    • CD 格式:采用 44.1kHz 采样频率和 16 位量化位数,近似无损。可以在 CD 唱机中播放也可以在计算机软件中重放,一个 CD 音频文件是一个 cda 文件,只是索引信息,并非真正包含声音信息,所以计算机看到的一个 cda 文件,不论音乐时长都是 44 字节。
    • MP3 格式:有损压缩,采用 16 - 48kHz 采样频率,编码速率为 8kb/s - 1.5Mb/s。音质好,压缩比高,应用广泛。
    • MP3pro 格式:相同音质条件下,可以把声音文件的文件量压缩到原有 MP3 格式的一半。
    • MIDI 格式:存储音乐代码或电子乐谱,音乐演奏的音效取决于合成器的音质。主要用于原始乐器作品,游戏音轨,电子贺卡等。
    • WMA 格式:录制时可对音质进行调节,音质强于 MP3,可用于网络广播。
    • RA 格式:用于网络上在线音乐欣赏。

四、多媒体图形图像的处理与编辑

  1. 颜色空间

    • RGB:是最常用的颜色表示方法,颜色范围 0 - 255。是一种发光的色彩模式,又称加色模型。
    • CMYK:主要用于印刷,是一种依靠反光的色彩模式,又称减色模型。青 —(互补)— 红;品 —(互补)— 绿;黄 —(互补)— 蓝。
    • YUV、YIQ、YCrCb:用于电视的颜色空间。YUV 中,Y 表示亮度,即灰度值,U 和 V 表示色差,描述影像色彩及饱和度。YIQ 类似。YCrCb 是从 YUV 派生的颜色空间,主要用于数字电视系统。
    • HSB 和 HSV:从人的视觉系统发出的,利用色调、饱和度、明度描述色彩。色调:人眼的色彩感觉,反映颜色种类,决定颜色的基本特征;饱和度:颜色的纯度,即掺入白光的程度,表示颜色的深浅程度;明度:表现光的强和弱。
    • CIE 色度模型:与设备无关的颜色模型。
  2. 常用颜色模型计算

    • 彩色静态图像(RGB),分辨率为 256 * 512,每种颜色用 8bit 表示,该图像的数据量为:分辨率 * 8 * 3。
    • 一幅 3×4 英寸的彩色照片在 150DPI 的分辨率下扫描得到原始的 24 位真彩色图像的数据量是(150×3)×(150×4)×24/8 = 810000 字节。
    • 通常 24 位的真彩色图像其 R、G 和 B 值分别使用 8 位来表示,而所谓 32 位真彩色显示模式其颜色空间仍然是使用 24 位来表达,每个颜色分量仍然是 8 位,共 24 位,而比 24 位真彩色图像多出来的 8 位被称为 alpha 通道值,是用来反映像素透明度的一个指标。
    • 点阵图像输出设备使用 “DPI” 即 “Dots Per Inch”(每英寸点数) 来描述其输入或输出点阵图像的分辨率。3×6 英寸的照片在 200DPI 的分辨率下扫描得到的数字图像像素值为 (200×3)×(200×6)=600×1200。
    • 彩色图形数据化时,如果利用人眼对亮度分量的敏感程度高于对颜色分量的敏感性这一生理特征,对图像的颜色(色度)信号使用的采样频率比对亮度信号使用的采样频率低,这种采样称为颜色的子采样。子采样的表达方法使用亮度和颜色信号单位空间采样率的比值来表示,常用子采样方案包括:4:2:2、4:2:0、4:1:1、4:4:4。
  3. 图像文件格式

    • PSD 格式:Photoshop 专用格式。能保存图像数据的像素、图层、通道、蒙版、色彩模式信息。
    • TIFF 格式:除 psd 外可存储多个通道的通用的文件格式,支持 RGB、CMYK、LAB 等色彩模式。可存储透明背景。
    • JPEG 格式:压缩比例可大可小,被广泛应用于网页制作。不支持 Alpha 通道。
    • BMP 格式:标准的 Windows 及 OS/2 的图像文件格式,是 photoshop 中常用的位图格式,是 windows 环境下最不容易出错的文件保存格式。不支持 Alpha 通道。
    • GIF 格式:能保存背景透明化的图像形式,可将多张图像存储为一个文件并形成动态效果。常用于网络传输,指能处理 256 种色彩。
    • PNG 格式:不仅可保存 256 种色彩,还可保存 24 位的真彩色图像,支持透明背景和消除锯齿边缘,可实现无损压缩。在 RGB 和位图模式下支持 Alpha 通道,在索引颜色和位图模式下不支持 Alpha 通道。
    • EPS 格式:是压缩的 PostScript 格式,可用于绘图或排版。支持 ps 里所有颜色模式,不支持 Alpha 通道。
    • PDF 格式:电子出版软件文档格式,不需要排版就可以获得图文混排的版面,支持超文本链接。

五、多媒体视频的处理与编辑

  1. 帧率与扫描方式

    • 为得到平滑且不闪烁的视频,需保持的帧率为 24 - 30 帧 / 秒(frame per second,fps)。现代电影帧率 24fps,电视节目帧率:美国日本 30fps(NTSC 标准),中国 25fps(PAL 标准)。
    • 逐行扫描:利于图形图像的计算机处理,没有闪烁感,长时间观看眼睛不易疲劳,但其数据量要大一倍。
    • 隔行扫描:其数据量只有逐行扫描的一半,但场间闪烁感明显,长时间观看眼睛易疲劳,不利于图形和图像的计算机处理。
  2. 视频分辨率与电视制式

    • 视频的分辨率代表每帧的信息量,表示为水平像素数目 * 垂直像素数目,常用的视频分辨率如下:手机视频:240 * 320;SDTV 480i/p NTSC:360 * 480;SDTV 576i/p PAL:720 * 576;HDTV 720p:1080 * 720;HDTV 1080i/p:1920 * 1080。注:i 指的是 interlaced(交织的),理解为 “隔行扫描”,而 1080p 的 P 意为逐行扫描(Progressive scanning)。数字 1080 表示垂直方向有 1080 条扫描线。
    • 日本、韩国及东南亚地区与美国等欧美国家使用 NTSC 制式(一帧图像总行数为 525 行),使用 YIQ 模型,视频信号帧速率为 29.97 帧 / 秒,隔行扫描方式约为 60 场 / 秒。
    • 法国,东欧地区则使用 SECAM 制式。PAL 是德国制定的彩色电视标准(一帧图像总行数为 625 行),中国大部分地区使用 PAL 制式。SECAM 和 PAL 均使用 YUV 模型,视频信号帧速率为 25 顿 / 秒,隔行扫描方式为 50 场 / 秒。
    • 通常胶片电影的快门速率为 24 帧 / 秒。
    • H.261 标准中为了解决电视制式不同的问题而定义了 CIF 视频格式。为了使同一标准既能用于 PAL (625) 和 NTSC (525) 两种电视制式系统,源编码基于中间格式 CIF (Common Inermediate Format) 格式,这是一种折中的定义,其分辨率来源于 PAL 制式定义为 352×288 像素,而帧速率则来源于 NTSC 制式,定义为 30 帧 / 秒。
  3. 模拟视频信号传输方式与编辑方式

    • 模拟视频信号通常可以采用三种方式传输:分量视频信号、复合视频信号和分离视频信号(S - Video)。彩色重现质量从高到低分别为:分量视频信号>分离视频信号>复合视频信号。
    • 线性编辑:利用电子手段,根据节目内容要求将素材连接成新的连续画面。这种方式无法删除,缩短,加长中间的某一段视频,除非将这一段之后的画面抹去重录。
    • 非线性编辑:借助计算机进行数字化制作,突破顺序编辑限制,采用任意顺序排列的编辑方式。只要上传一次就可进行多次编辑。特点:1. 数字化存储,信号衰减少或没有衰减。2. 设备简单,维护费用低。3. 节约时间,设备使用寿命长(线性编辑系统的录像机 > 非线性编辑系统的硬盘)。4. 数字化存储便于节目的交换与共享,便于构建视频网络系统。
  4. 视频数字化与压缩编码技术

    • 视频数字化:视频在摄像机中从采集到存储的过程。a. 通过感光元件将外部景物的光信号转变为电流;b. 将模拟电信号转变成数字电信号(模数转换 A/D);c. 经专门的芯片进行处理和过滤存储到摄像机的数字存储介质(磁带,光盘,硬盘)中。
    • 数码摄像机的工作原理:数字视频常用的各种冗余信息及压缩方法(见辅导教材 p53)。
    • MPEG 视频压缩编码技术:时间冗余度 —— 利用具有运动补偿法和帧间压缩编码技术减小;空间冗余度 —— 利用变换编码和帧内压缩技术减小;统计冗余度 —— 利用熵编码减小。
    • MPEG 音视频压缩编码技术:MPEG - 1 标准:主要由系统,音频,视频三部分组成。该标准的视频包括 CD - ROM、VCD、CDi 等,速率 1.5M/s,每秒 30 帧;MPEG - 2 标准:包括编号系统,视频,音频,符合性测试四部分。通过对运动补偿的扩充使编码效率大幅提高;MPEG - 4 标准:被 ISO/IEC 批准为正式标准,其编码过程把图像看作分层的媒体对象,而非像素组合,大大提高压缩率。应用于网上视频 / 音频点播,视频会议,数字广播等。更注重多媒体系统交互性和灵活性。
    • MPEG - 1 标准中,视频图像的帧序列包括帧内图像(I 帧)、预测图像(P 帧)和插补图像(B 帧,或称双向预测图像)3 种。帧内图像不参照任何过去的或者将来的其他图像帧,压缩编码直接采用类 JPEG 的压缩算法,故其可以直接作为索引和访问点;预测图像使用单向预测编码;而插补图像使用双向预测编码。由此可知,帧内图像的编码数据量最大,插补图像的编码数据量最小。
  5. 视频文件格式

    • AVI 格式:音频视频交错格式,将视频音频交织一起同步播放。图像质量好,可跨多平台使用,但体积过大,压缩标准不统一。
    • DV - AVI 格式:家用数字视频格式,数码摄像机使用该格式记录视频数据。文件扩展名 avi。
    • MPEG 格式:运动图像专家组格式,运动图像压缩算法的国际标准,是有损压缩。VCD、SVCD、DVD 采样该格式。
    • DIVX 格式:由 MPEG - 4 衍生的另一种格式,综合 MPEG 和 MP3 各方面技术,其画质与 DVD 相当,但体积只有 DVD 的几分之一,扩展名 avi。
    • MOV 格式:具有高压缩比和完美的视频清晰度,具有跨平台性,支持 MacOS、Windows,扩展名 qt、mov。本地影像视频文件格式。
    • ASF 格式:可用 Windows 系统自带播放器播放,扩展名 asf。
    • WMV 格式:支持本地或网络回放,可扩充可伸缩。
    • RM 格式:实现低速率的网上进行影像数据的实时传送和播放,扩展名 rm、ra、ram。
    • RMVB 格式:打破了 RM 格式的平均压缩采样方式,保证平均压缩比基础上合理利用比特率资源,使在保证静止画面质量前提下提高运动图像画面质量,扩展名 rmvb、rm。
    • 3GP 格式:用于在手机上观看电影,扩展名 3gp。
    • Flash 格式:应用于网络上大量的视频网站,扩展名 swf、flv。

六、多媒体信息的组成

  1. 超文本:指用超链接的方法将各种不同空间的文字信息组织在一起的网状文本。具有多媒体信息,网络结构模式,交互特性。

  2. 万维网基础技术

    万维网(Web)作为信息资源网络的信息基础,依靠三个基础技术:指定网上信息资源地址的统一命名方法:URL;存取资源的协议 —— 超文本传输协议 HTTP;在资源间很容易浏览的超文本链接技术 HyperLink。
  3. HTMLHTML 语言:为出版可在全球发行的信息而创造的所有计算机都能理解的出版语言 ——HTML 语言。HTML 文档是一种没有格式的文档,也称 ASCII 文件,可用任何一种文本编辑器进行编写。

  4. 超媒体:是一种采用非线性网状结构对块状多媒体信息进行组织和管理的技术。

  5. 超文本和超媒体系统结构:分为数据库层(以庞大数据库为基础),超文本抽象机层(决定超文本系统中节点和链路的基本特点),用户接口层(是超文本系统特殊性的重要表现)。

七、课后习题 

  1. 在多媒体信息的种类中,以下哪种信息可以任意放大或缩小且不会失真,但色彩不丰富,无法表现逼真景物?( )
    A. 文本 B. 图形 C. 图像 D. 视频
  2. 数字音频最高采样频率要达到 44.1kHz 是根据__________采样定理得出的结论。
  3. 请简述 MPEG 视频压缩编码技术是如何减小时间冗余度、空间冗余度和统计冗余度的
  4. 分析线性编辑和非线性编辑的特点及优缺点。。
  5. 请结合多媒体信息的种类和特点,阐述在一个多媒体作品中如何合理运用不同类型的多媒体信息来增强作品的表现力。

  • 15
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值