文章目录
数据库系统概述
基本概念
-
数据(Data)
数据库存储的基本对象。是描述事物的符号记录,有多种表现形式,可以是数字、文字、图形、图像、声音、语言等,都可以经过数字化后存入计算机。事物可以是可触及的对象,可以是抽象事件,也可以是事物之间的联系。数据与其语义(数据的含义)是不可分的。记录是计算机表示和存储数据的一种格式或一种方法。
-
数据库(Database,简称DB)
长期储存在计算机内、有组织的、可共享的大量数据的集合。数据库中的数据按一定的数据模型组织、描述和储存。它可以供各种用户共享、具有较小冗余度、较高的数据独立性和易扩展性。(永久存储,有组织,可共享)在数据库中集中存放了一个组织完整的有价值的数据资源。
-
数据库管理系统(Database Management System,简称DBMS)
数据库管理系统指位于用户与操作系统之间的一层数据管理系统软件(基础软件)。用户使用数据库是目的,数据库管理系统是帮助用户达到这一目的的工具和手段。数据的存取由DBMS管理,用户不必考虑存取路径等细节,简化了应用程序的编制,大大减少了应用程序的维护和修改 。
数据定义功能:提供数据定义语言(DDL) ,通过它可以方便的对数据库中的数据对象的组成与结构进行定义。
数据组织、存储和管理:分类组织、存储和管理各种数据,确定组织数据的文件结构和存取方式,实现数据之间的联系,提供多种存取方法提高存储空间的利用率和方便存取。
数据操纵功能:提供数据操纵语言(DML),实现对数据库的基本操作 (查询、插入、删除和修改)。
数据库的事务管理和运行管理:数据库在建立、运行和维护时由DBMS统一管理和控制,保证数据的安全性、完整性、多用户对数据的并发使用,发生故障后的系统恢复。
数据库的建立和维护功能(由实用程序和管理工具完成):初始数据的输入和转换,数据库转储和恢复,数据库的重组织、性能监视和分析。
其它功能:DBMS与网络中其它软件系统的通信,两个DBMS系统的数据转换,异构数据库之间的互访和互操作。
-
数据库系统(Database System 简称DBS)
数据库系统是指在计算机系统中引入数据库后的系统构成。由数据库,数据库管理系统(及其应用开发工具),应用程序和数据库管理员组成的存储,管理和维护数据的系统。
数据库:提供数据的存储功能。
数据库管理系统:提供数据的组织,存取,管理和维护等基础功能。
数据库应用系统:根据需求使用数据库。
数据库管理员:全面管理数据库系统。
-
引入数据库后计算机系统的层次结构
数据库管理技术的产生和发展
- 数据管理:对数据进行分类,组织,编码,存储,检索和维护,是数据处理的中心问题。
- 数据处理:对各种数据进行收集,存储,加工和传播一系列活动的总和。
人工管理阶段(20世纪40年代中–50年代中) | 文件系统阶段(20世纪50年代末–60年代中) | 数据库系统阶段(20世纪60年代末–现在) | |
---|---|---|---|
应用需求 | 科学计算 | 科学计算、数据管理 | 大规模数据管理 |
硬件水平 | 无直接存取存储设备,数据不保存 | 磁盘、磁鼓 | 大容量磁盘、磁盘阵列 |
软件水平 | 没有操作系统 | 有文件系统 | 有数据库管理系统 |
处理方式 | 批处理 | 联机实时处理、批处理 | 联机实时处理、分布处理、批处理 |
管理者 | 用户(程序员)没有相应的软件系统 | 文件系统 | DBMS管理 |
面向的对象 | 某一应用程序 | 某一应用程序 | 现实世界 |
共享程度 | 无共享、冗余度极大 | 共享性差、冗余度大 | 共享性高、冗余度低 |
独立性 | 不独立,完全依赖于程序 | 独立性差,数据的逻辑结构改变必须修改应用程序 | 较高的物理独立性和一定的逻辑独立性 |
数据的结构化 | 无结构 | 记录内有结构,整体无结构 | 整体数据的结构化,用数据模型描述 |
数据控制能力 | 应用程序自己控制 | 应用程序自己控制 | 由DBMS统一管理 |
数据库系统的特点
-
数据结构化(与文件系统的本质区别):整体结构化,不再仅仅针对某一个应用,而是面向全组织。不仅数据内部结构化,整体是结构化的,数据之间具有联系,数据的结构用数据模型描述,无需程序定义和解释,数据可以变长,数据的最小存取单位是数据项。
在文件系统阶段,数据的最小存取单位是记录,记录内有结构。数据的结构是靠程序定义和解释的。数据只能是定长的。可以间接实现数据变长要求,但访问相应数据的应用程序复杂了。文件间是独立的,因此数据整体无结构。可以间接实现数据整体的有结构,但必须在应用程序中描述数据间的联系。
-
数据的共享性高,冗余度低,易扩充:能够避免数据之间的不相容性和不一致性(同一数据不同副本的不一致性)。
-
数据独立性高
物理独立性:指用户的应用程序与存储在磁盘上的数据库中数据是相互独立的。当数据的物理存储改变了,应用程序不用改变。逻辑独立性:指用户的应用程序与数据库的逻辑结构是相互独立的。数据的逻辑结构改变了,用户程序也可以不变。
数据独立性是由DBMS的二级映像功能来保证的。
-
数据由DBMS统一管理和控制
数据库的共享是并发的,即多个用户可以同时存取数据库中的数据,甚至可以同时存取数据库中的同一个数据。数据的安全性(Security)保护:保护数据,以防止不合法的使用造成的数据的泄密和破坏。
数据的完整性(Integrity)检查:将数据控制在有效的范围内,或保证数据之间满足一定的关系。
并发(Concurrency)控制:对多用户的并发操作加以控制和协调,防止相互干扰而得到错误的结果。
数据库恢复(Recovery):将数据库从错误状态恢复到某一已知的正确状态。
数据模型
- 模型:对现实世界中某个对象特征的模拟和抽象。
- 数据模型
对现实世界数据特征的抽象。即数据模型是用来描述数据,组织数据和对数据进行操作的。是对客观事物及其联系的数据描述,使概念模型数据化。它描述数据以及数据间的联系,是现实世界的第二级抽象。能比较真实地模拟现实世界,容易为人所理解,便于在计算机上实现。
两类数据模型
-
概念模型(信息模型):是按照用户的观点对数据和信息建模,主要用于数据库的设计。
-
逻辑模型和物理模型
逻辑模型:主要包括网状模型、层次模型、关系模型、面向对象数据模型,对象关系数据模型、半结构化数据模型等,按计算机系统的观点对数据建模,用于DBMS实现。物理模型:对数据最底层的抽象,描述数据在系统内部的表示方式和存取方法,在磁盘或磁带上的存储方式和存取方法,是面向计算机系统的。物理模型的具体实现是DBMS的任务。
-
客观对象的抽象过程
现实世界中的客观对象抽象为概念模型(信息世界),把概念模型转换为某一DBMS支持的数据模型(机器世界)。现实世界->概念模型:数据库设计人员完成
概念模型->逻辑模型:数据库设计人员完成
逻辑模型->物理模型:由DBMS完成
概念模型
-
概念模型:是现实世界到机器世界的一个中间层次,是现实世界到信息世界的第一层抽象,应该具有较强的语义表达能力,能够方便、直接地表达应用中的各种语义知识,简单、清晰、易于用户理解。
-
实体(Entity):客观存在并可相互区别的事物称为实体,可以是具体的人、事、物或抽象的概念。
属性(Attribute):实体所具有的某一特性称为属性,一个实体可以由若干个属性来刻画。
码(Key):唯一标识实体的属性集称为码。
实体型(Entity Type):用实体名及其属性名集合来抽象和刻画同类实体称为实体型。
实体集(Entity Set):同一类型实体的集合称为实体集。
-
联系(Relationship):现实世界中事物内部以及事物之间的联系在信息世界中反映为实体内部的联系和实体之间的联系。实体内部的联系通常是指组成实体的各属性之间的联系。实体之间的联系通常是指不同实体集之间的联系。
一对一联系:如果对于实体集A中的每一个实体,实体集B中至多有一个(也可以没有)实体与之联系,反之亦然,则称A与B具有一对一联系,记为1:1 。
一对多联系:如果对于实体集A中的每一个实体,实体集B中有n个实体(n≥0)与之联系,对于实体集B中的每一个实体,实体集A中至多只有一个实体与之联系,则称实体集A与实体集B有一对多联系,记为1:n。
多对多联系:如果对于实体集A中的每一个实体,实体集B中有n个实体(n≥0)与之联系,反之,对于实体集B中的每一个实体,实体集A中也有m个实体(m≥0)与之联系,则称实体集A与实体B具有多对多联系,记为m:n。
-
概念模型的表示方法:实体-联系方法,用E-R图来描述现实世界的概念模型
实体型:用矩形表示,矩形框内写明实体名。属性:用椭圆形表示,并用无向边将其与相应的实体连接起来。
联系:用菱形表示,菱形框内写明联系名,并用无向边分别与有关实体连接起来,同时在无向边旁标上联系的类型(1:1、1:n或m:n) 。
联系的属性:联系本身也是一种实体型,也可以有属性。如果一个联系具有属性,则这些属性也要用无向边与该联系连接起来。
数据模型的组成要素
-
数据结构(对系统静态特性的描述):描述数据库的组成对象,以及对象之间的联系。即描述与数据类型、内容、性质有关的对象和与数据之间联系有关的对象。
通常按照数据结构的类型来命名数据模型。
-
数据操作(对系统动态特性的描述):对数据库中各种对象(型)的实例(值)允许执行的操作及有关的操作规则。主要是查询和更新(包括插入、删除、修改)。数据模型必须定义操作的确切含义,操作符号,操作规则(如优先级),实现操作的语言
-
完整性约束条件:
一组完整性规则(给定的数据模型中数据及其联系所具有的制约和储存规则)的集合,用以限定符合数据模型的数据库状态以及状态的变化,以保证数据的正确、有效、相容。数据模型应该反映和规定本数据模型必须遵守的基本的通用的完整性约束条件,提供定义完整性约束条件的机制,以反映具体应用所涉及的数据必须遵守的特定的语义约束条件。
层次模型(Hierarchical Model)
-
最早出现的数据模型,用树形结构来表示各类实体以及实体间的联系。
-
数据结构:
有且只有一个结点没有双亲结点,这个结点称为根结点,根以外的其它结点有且只有一个双亲结点,结点的双亲是唯一的,没有一个子女记录值能够脱离双亲记录值而独立存在。每个节点表示一个记录类型,记录类型之间的联系用节点之间连线表示,这种联系是父子之间的一对多的联系,使得层次模型只能直接处理一对多的实体联系。
每个记录类型可以包含若干个字段,这里的记录类型描述的实体,字段描述实体的属性。
每个记录类型可以定义一个排序字段,也称为码字段(类似于属性)。任何记录值只有按其路径查看时,才能显出它的全部意义。
-
数据操纵与完整性约束条件
查询、插入、删除和更新。无相应的双亲结点值就不能插入子女结点值,如果删除双亲结点值,则相应的子女结点值也被同时删除,更新操作时,应更新所有相应记录,以保证数据的一致性。
-
存储结构
邻接法:按照前序遍历的顺序把所有记录值依次邻接存放,即通过物理空间的位置相邻来实现层次顺序。链接法:用指引来反映数据之间的层次联系
子女-兄弟链接法:每个记录设两类指针,分别指向最左边的子女(每个记录型对应一个)和最近的兄弟。
层次序列链接法:按树的前序穿越顺序链接各记录值。
-
优点:层次模型的数据结构比较简单清晰,查询效率高,性能优于关系模型,不低于网状模型,层次数据模型提供了良好的完整性支持。
-
缺点:多对多联系表示不自然,对插入和删除操作的限制多,应用程序的编写比较复杂 ,若一个节点具有多个双亲节点,只能通过引入冗余数据或创建非自然的数据结构(引入虚拟结点)来解决。查询子女结点必须通过双亲结点,由于结构严密,层次命令趋于程序化。
网状模型(Network Model)
-
数据结构:允许一个以上的结点无双亲,一个结点可以有多于一个的双亲(复合联系)。层次模型实际上是网状模型的一个特例。
每个节点表示一个记录类型,每个记录类型可以包含若干个字段,记录类型之间的联系用节点之间连线表示。
子女结点与双亲结点的联系可以不唯一:要为每个联系命名,并指出与该联系有关的双亲记录和子女记录。
-
数据操纵与完整性约束条件
支持记录码的概念,即唯一标识数据项的集合。保证一个联系中的双亲记录和子女记录之间的联系是一对多的联系,可以支持双亲记录和某些子女记录之间的约束条件。
-
优点:能够更为直接地描述现实世界,具有良好的性能,存取效率较高。
-
缺点:结构比较复杂,而且随着应用环境的扩大,数据库的结构就变得越来越复杂,不利于最终用户掌握。网状模型的DDL,DML复杂,并且要嵌入到高级语言中,用户不容易掌握,不容易使用。记录之间的联系是通过存取路径实现的,应用程序在访问数据时必须选择适当的存取路径,因此,用户必须要了解系统结构的细节,加重了编写程序的负担。
关系模型(Relational Model)
-
关系模型是建立在数学概念上的,是一种最重要的数据模型。实际上,关系模型可以理解为用二维表格结构来表示实体及实体之间联系的模型,表格的列表示关系的属性,表格的行表示关系中的元组。
-
数据结构
关系(Relation):一个关系对应通常说的一张表,关系名即表名。元组(Tuple):表中的一行即为一个元组。
属性(Attribute):表中的一列即为一个属性,给每一个属性(列)起一个名称即属性名,属性值即列值。
码:表中的某个属性组,可以唯一的确定一个元组。
域:一组具有相同数据类型值的集合。
分量:元组中的一个属性值。
关系模式:对关系的描述,一般表示为:关系名(属性1…属性n)。
-
关系必须是规范化的,满足一定的规范条件,最基本的规范条件:关系的每一个分量必须是一个不可分的数据项(不允许表中还有表)。
数据操作是集合操作,操作对象和操作结果都是关系(即若干元组的集合)。
-
存储结构:实体及实体间的联系都用表来表示,表以文件形式存储。
-
数据操纵与完整性约束条件
查询、插入、删除和更新数据。实体完整性、参照完整性、用户定义的完整性。
优点:建立在严格的数学概念的基础上,概念单一。实体和各类联系都用关系来表示,对数据的检索结果也是关系。关系模型的存取路径对用户透明,具有更高的数据独立性,更好的安全保密性,简化了程序员的工作和数据库开发建立的工作。缺点:存取路径对用户透明导致查询效率往往不如非关系数据模型,为提高性能,必须对用户的查询请求进行优化,增加了开发DBMS的难度。
数据库系统的结构
-
数据库系统通常采用三级模式结构,是数据库系统内部的系统结构。
从数据库最终用户角度看(外部的体系结构) ,数据库系统的结构分为:
单用户结构
主从式结构
分布式结构
客户/服务器
浏览器/应用服务器/数据库服务器多层结构等
数据库系统模式的概念
-
型:某一类数据的结构和属性的说明。
值:型的具体赋值。
模式(Schema):数据库逻辑结构(数据项的名字、类型、取值范围等)和特征的描述,是型的描述,不涉及具体的值,反映的是数据的结构及其联系,模式是相对稳定的。
实例(Instance):模式的一个具体值,反映数据库某一时刻的状态,同一个模式可以有很多实例,实例随数据库中的数据的更新而变动。
数据库系统的三级模式结构
-
数据库系统的三级模式(是对数据的三个抽象级别)结构
-
模式(逻辑模式)(Schema)(基本表)
数据库中全体数据的逻辑结构和特征的描述(全局逻辑结构),所有用户的公共数据视图,综合了所有用户的需求,一个数据库只有一个模式,是数据库系统模式结构的中间层。与数据的物理存储细节和硬件环境无关,与具体的应用程序、开发工具及高级程序设计语言无关。以某一种数据模型为基础,综合考虑所有用户的请求。不仅要定义数据的逻辑结构,而且要定义数据之间的联系,定义与数据有关的安全性,完整性要求。全局逻辑结构,是数据库的中心与关键,独立于数据库的其他层次,设计数据库模式结构时应首先确定数据库的逻辑模式。
DBMS提供模式数据定义语言(模式DDL)来严格的定义模式。
-
外模式(子模式或用户模式)(External Schema)(视图)
数据库用户(应用程序员和最终用户)能够看见和使用的局部数据的逻辑结构和特征的描述,数据库用户的数据视图,是与某一应用有关的数据的逻辑表示(局部逻辑结构 )。外模式通常是模式的子集,一个数据库可以有多个外模式。外模式反映了不同的用户的应用需求、看待数据的方式、对数据保密的要求,对模式中同一数据,在外模式中的结构、类型、长度、保密级别等都可以不同。
同一外模式也可以为某一用户的多个应用系统所使用,但一个应用程序只能使用一个外模式。
面向具体的应用程序,定义在模式之上,独立于存储模式和存储设备,设计外模式时应充分考虑到应用的扩充性 。介于模式与应用之间。
特定的应用程序,在外模式描述的数据结构上编制的,依赖于特定的外模式,与数据库的模式和存储结构独立。数据与程序之间的独立性,使得数据的定义和描述可以从应用程序中分离出去。
保证数据库安全性的一个有力措施,每个用户只能看见和访问所对应的外模式中的数据。
DBMS提供外模式数据定义语言(外模式DDL)来严格的定义模式。
模式与外模式的关系:一对多
外模式与应用的关系:一对多
-
内模式(存储模式)(Internal Schema) (存储文件)
一个数据库只有一个内模式,是数据物理结构和存储方式的描述,是数据在数据库内部的组织方式。依赖于它的全局逻辑结构,独立于数据库的用户视图,即外模式。独立于具体的存储设备。将全局逻辑结构中所定义的数据结构及其联系按照一定的物理存储策略进行组织,以达到较好的时间与空间效率。
记录的存储方式(顺序存储,按照B树结构存储,按hash方法存储)
索引的组织方式
数据是否压缩存储
数据是否加密
数据存储记录结构的规定
二级映像与数据独立性
-
二级映象在DBMS内部实现这三个抽象层次的联系和转换,保证了数据能够具有较高的逻辑独立性和物理独立性。
数据与程序的独立性使得数据的定义和描述可以从应用程序中分离出去。
数据的存取由DBMS管理,简化了程序的编制,开发和维护。
-
外模式/模式映像
每一个外模式,数据库系统都有一个外模式/模式映象,定义外模式与模式之间的对应关系,映象定义通常包含在各自外模式的描述中。保证数据的逻辑独立性,当模式改变时,数据库管理员修改有关的外模式/模式映象,使外模式保持不变,应用程序是依据数据的外模式编写的,从而应用程序不必修改,保证了数据与程序的逻辑独立性,简称数据的逻辑独立性。从底层保证了应用程序的稳定性,除非应用需求本身发生变化,否则应用程序一般不需要修改。 -
模式/内模式映像
定义了数据全局逻辑结构与存储结构之间的对应关系。数据库中模式/内模式映象是唯一的,该映象定义通常包含在模式描述中。保证数据的物理独立性:当数据库的存储结构改变了,数据库管理员修改模式/内模式映象使模式保持不变,应用程序不受影响。保证了数据与程序的物理独立性,简称数据的物理独立性。
数据库系统的组成
-
硬件平台和数据库:硬件是数据库系统的物力支撑。
足够大的内存:操作系统、DBMS的核心模块、数据缓冲区、应用程序。
足够大的外存:磁盘或磁盘阵列(数据库) 光盘、磁带(数据备份)。
较高的通道能力,提高数据传送率。 -
软件
DBMS
支持DBMS运行的操作系统
与数据库接口的高级语言及其编译系统,便于开发应用程序。
以DBMS为核心的应用开发工具
为特定应用环境开发的数据库应用系统 -
人员:不同的人员涉及不同的数据抽象级别,具有不同的数据视图。
数据库管理员DBA:外模式 模式 内模式 数据库
决定数据库中的信息内容和结构,存储结构和存取策略,定义数据的安全性要求和完整性约束条件(存取权限,保密级别,完整性约束条件),监控数据库的使用和运行(定义和实施适当的恢复策略),数据库的改进、重组和重构(性能监控和调优 定期对数据库进行重组织,以提高系统的性能。需求增加和改变时,数据库须需要重构造)。系统分析员:外模式 模式 内模式 数据库
负责应用系统的需求分析和规范说明,与用户及DBA协商,确定系统的硬软件配置,参与数据库系统的概要设计。数据库设计人员:外模式 模式 内模式 数据库
参加用户需求调查和系统分析,确定数据库中的数据,设计数据库各级模式。很多情况下数据库设计人员由数据库管理员担任。应用程序员:外模式
设计和编写应用系统的程序模块,进行调试和安装。用户:最终用户通过应用系统的用户接口使用数据库。
偶然用户:不经常访问数据库,但每次访问数据库时往往需要不同的数据库信息。简单用户:主要工作是查询和更新数据库。一般是通过具有友好界面的应用程序存取数据库。复杂用户:属性DBMS的各种功能,能直接使用数据库语言访问数据库,甚至能够基于数据库管理系统的API编制自己的应用程序