数据库系统概述
信息、数据与数据处理
信息与数据
1 信息
(1)信息的定义。信息是一种重要的资源,它与能源、材料构成了现代社会的三大支柱,在不同的领域中,其含义有所不同。
(2)信息的特征。
1)信息源于物质和能量。信息的传播和获取都需要物质载体和消耗能量,不可能脱离物质而存在。
2)信息是可以感知的。
3)信息是可存储、加工、传递和再生的。人们对收集到的信息进行取舍整理以及通过各种手段进行传递与再生。
2. 数据
(1) 数据的定义。数据是用来记录信息的可识别的符号。
(2)数据的表现形式。数据的表现形式多种多样,不仅包括数字和文字,还包括图形、图像、声音等。
3. 数据与信息的联系
数据与信息相互联系,数据时信息的物理符号表示或载体,信息是数据的内含,是对数据的语义解释。
数据处理
数据处理又称信息处理,是将数据转换成信息的过程,包括对数据的收集、存储、加工、检索和传输等一系列活动,其目的是从大量的原始数据中抽取和推导出有价值的信息,做各种应用。
信息 = 数据 + 数据处理
数据库与数据库管理系统
数据库
数据库(Datebase,简称DB)就是存储数据的仓库。一般定义为:长期存储在计算机内的、有组织的、可共享的数据集合。数据库分为两类,一类是应用数据的集合,称为物理数据库,它是数据库的主体;另一类是各级数据结构的描述,称为描述数据库。数据库有以下几个特点。
- 数据结构化
- 数据共享
- 数据独立性
数据库管理系统
数据库管理系统(Database Management System,简称DBMS)瑟吉欧数据库系统中对数据进行管理的一组大型软件系统,它是数据库系统的核心组成部分。数据库系统的一切操作,包括查询、更新及各种控制,都是通过DBMS进行的。
- DBMS的主要功能
(1)数据库定义功能。DBMS提供数据定义语言DDL(Data Definition Language)来定义数据库的三级模式,两级映像,定义数据完整性和保密限制等约束。
(2)数据库操纵功能。DBMS提供数据操纵语言DML(Data Manipulation Language)来实现对数据库的操作,如查询、插入、修改和删除。
(3)数据库保护功能。
1)数据安全性控制。数据安全性控制是对数据库的一种保护措施。它的作用是防止未被授权的用户破坏或存取数据库中的数据。
2)数据完整性控制。数据完整性控制是DBMS对数据库提供保护的另一个重要方面,完整性控制的目的是保持进入数据库中的存储数据的雨衣的正确性、有效性和相容性,防止操作对数据造成违反其语义的改变。
3)并发控制。
4)恢复功能。
(4)数据库维护功能。
(5)数据字典。数据字典(Data Dictionary,简称DD)是对数据库结构的描述,存放着对实际数据库三级模式的定义,是数据库系统中各种描述信息和控制信息的集合
数据库系统
数据库系统(Database System,简称DBS)是采用了数据库技术的计算机系统,通常由数据库、硬件、软件、用户四部分组成。
-
数据库
数据库是一个长期存储在计算机内的、有组织的、可共享的、统一管理的数据集合。
(1)数据库是一个实体。
(2)数据库是数据管理的新方法和技术,它能更合理地组织数据、更方便地维护数据、更严密地控制数据和更有效地利用数据。 -
硬件
计算机系统的硬件包括中央处理器、内存、外存、输入/输出设备等硬件设备。 -
软件
数据库系统的软件主要包括操作系统(Operation System,简称OS)、数据库管理系统(DBMS),各种宿主语言和应用开发支撑软件等程序。 -
用户
(1)普通用户。
(2)应用程序员
(3)数据管理员(Database Administrator,简称DBA)。DBA主要有以下职责:
1)参与数据库设计的全过程,决定整个数据库的结构和信息内容。
2)帮助终端用户使用数据库系统
3)定义数据的安全性和完整性,负责分配用户对数据库的而使用权限和口令管理等数据库访问策略。
4)监督控制数据库的使用和运行,改进和重新构造数据库系统。DBA不仅要有较高的技术水平和较深的资历,还应具有了解和阐明管理要求的能力
数据库系统的主要研究领域
数据库学科的研究范围十分广泛,主要有以下三个领域。
- 数据库管理系统软件的研制
DBMS是数据库系统的基础。研制的目标是提高系统性能和用户的生产率。 - 数据库设计
数据库设计的研究范围包括数据库的设计方法、设计工具和设计理论、数据模型和数据建模、计算机辅助数据库设计及其软件系统、数据库设计规范和标准等。 - 数据库理论
数据库理论的研究主要集中于关系规范化理论、关系数据理论等。
数据库体系结构
从数据库管理系统角度看,数据库系统通常采用三级模式结构,这是数据库管理系统的额你不体系结构。从数据库最终用户角度看,数据库系统的结构分为单用户结构、主从式结构、分布式结构和客户/服务器结构,这是数据库系统的外部体系结构。
数据库的三级模式结构
数据库系统通常采用三级结构:模式、外模式和内模式。
- 模式
模式(Schema)是数据库中全部数据的逻辑结构的描述,是所有概念记录类型的定义,又称概念模式或逻辑模式。 - 外模式
外模式(External Schema)是指用户所看到和使用的数据库,即局部逻辑结构,又称子模式或用户视图。外模式是数据库系统保证数据库安全性的一个重要手段。 - 内模式
内模式(Internal Schema)是对内层数据的物理结构和存储方式的描述,是数据在数据库文件内部的表示方法是。内模式是用设备介质语言来定义的,又称存储模式,或物理模式。内模式对一般用户是透明的。
数据库系统提供了内模式描述语言(内模式DDL)来定义内模式。
数据库的两级映像功能
- 模式间的映像
数据库系统提供了三级模式之间的二级映像
(1)外模式/模式映像:定义了外模式与模式之间的映像关系。
(2)模式/内模式映像:定义了模式与内模式的映像关系。 - 两级数据独立性
数据独立性(Data Independence)是指应用程序和数据库的数据结构之间相互独立,不受影响。
数据独立性分为物理数据独立性和逻辑数据独立性两个级别。
(1)物理独立性。如果数据库的内模式要修改,即数据库的物理结构有所变化,那么只要对模式/内模式映像作相应的修改,就可以使概念模式尽可能保持不变。
(2)逻辑数据独立性。如果数据库的概念模式要修改,那么只要对外模式/模式映像作相应的修改,就可以使外模式尽可能保持不变。
数据模型
数据模型是理解数据库的基础。模型(Model)是对现实世界的抽象。数据模型(Data Model)是对现实世界数据特征的抽象,是用来描述数据的一组概念和定义。
数据之间的联系
- 三个世界的划分
(1)现实世界。现实世界(Real World)是存在于人们头脑外的客观世界。
(2)信息世界。信息世界(Information World)是现实世界在人们头脑中的反映。
(3)机器世界。机器世界(Machine World)又称为数据世界,是数据库的处理对象。 - 信息世界中的数据描述
(1)实体(Entity)。客观存在并可相互区别的事物称为实体。
(2)属性(Attribute)。实体所具有的某一特性称为属性。
(3)码(Key)。能唯一标识实体的属性或属性集称为码。
(4)实体集(Entity Set)。同一类型的实体的集合称为实体集。
(5)域(Domain)。属性的取值范围称为该属性的域或值域。
(6)实体型(Entity Type)。具有相同属性的实体必然具有共同的特征和性质。 - 机器世界中的数据描述
(1)字段(Field)。标记实体属性的符号集叫字段或数据项。
(2)记录(Record)。字段的有序集合称为记录。
(3)文件(File)。同一类记录的汇集称为文件,文件是描述实体集的。
(4)键(Key)。能唯一标识文件中每个记录的字段或字段集。
三个世界属于的对应关系
现实世界 | 信息世界 | 机器世界 |
---|---|---|
事物总体 | 实体集 | 文件 |
事物个体 | 实体 | 记录 |
特征 | 属性 | 字段 |
事物之间的联系 | 实体模型 | 数据模型 |
数据模型概述
数据模型大题可分为两类:
第一类是独立于任何计算机系统实现的,称为概念数据模型,简称为概念模型。这类模型强调其语义表达能力,概念简单、清晰、易于用户理解,它是现实世界的第一层抽象,是用户和数据库设计人员之间进行交流的语言,概念模型是用于建立信息世界的数据模型。
另一类数据模型则是直接面向数据库中的数据逻辑结构,例如有关系、网状、层次、面向对象等模型,称为结构数据模型,简称为数据模型。
任何一种数据模型都是有严格定义的,包括模型的静态特性和动态特性,通常数据模型有三个要素。
- 数据结构
数据结构用于描述数据库系统的静态特性,数据模型是所描述的对象类型的集合。 - 数据操作
数据操作用于描述数据库系统的动态特性,数据操作是指对数据库中各种对象执行操作的集合 - 数据约束条件
数据的约束条件是一组完整性规则的集合。
概念数据模型
概念数据模型是用户与数据库设计人员之间进行交流的工具。常见的概念数据模型有实体联系模型(Entity Relationship Model,简称E-R模型)。
E-R模型的基本语义单位是实体与联系,E-R图有三要素:
(1)实体——用矩形框表示,框内标注实体名称。
(2)属性——用椭圆形表示,并用连线与实体或联系连接起来。
(3)实体间的联系——用菱形框表示,框内标注联系名称。
实体间的联系有两种方式:一种是同一实体集的实体间的联系,另一种是不同实体集的实体间的联系。
(1)一对一联系(1:1)。如果实体集A和B中的每一个实体至多和另一个实体集中的一个实体有联系,那么实体集A和B的联系称为一对一联系,记作1:1。
(2)一对多联系(1:n)。
(3)多对多联系(m:n)。
关系模型及格式化模型
在数据库发展过程中出现的数据模型主要有:关系模型(Relational Model)、层次模型(Hierarchical Model)、网状模型(Net Model)和面向对象模型(Object Oriented Model)。
- 关系模型
关系模型是用二维表结构来表示实体及实体之间联系的数据模型。
(1)关系模型的组成部分:
1)数据结构。关系模型的基本数据结构是关系。
2)关系的操作。一般分为数据查询与更新操作两大类。
3)完整性约束。数据域数据或数据与应用上的相容性与正确性。
(2)关系模型的优点:
1)关系模型概念单一。
2)关系模型与非关系模型不同。
3)关系模型的存取路径对用户是透明的。
(3)关系模型的缺点:
1)由于存取路径对用户是透明的,使关系模型的查询效率往往不如非关系模型。
2)关系模型在处理如CAD数据、多媒体数据时就有了局限性,必须要和其他的新技术相结合。 - 格式化模型
层次模型与网状模型统称为格式化模型。
(1)层次模型。层次模型使用树形结构表示实体及其之间联系的数据模型。
层次模型的定义:
1)有且仅有一个结点无父结点,这个结点称为根结点。
2)其他结点有且仅有一个父结点。
(2)网状模型。网状模型是用网状结构表示实体及其之间联系的模型
网状模型的定义:
1)可以有一个以上结点无父结点。
2)至少有一个结点有一个以上父结点。