数据库系统:第六章关系数据理论

6.1 问题的提出

数据库有“三个从无到有”,其中第一个就是数据库模式的从无到有,针对一个具体问题,如何构造一个适合的数据库模式是建立数据库系统很基本的问题,这是数据库的设计问题,确切的说是关系数据库逻辑设计问题,我们有一个有利工具:关系数据库的规范化理论。

6.1.1 概念回顾

1. 关系模式的表示

关系模式的表示:五元组 R(U,D,DOM,F)
关系名 R 是符号化的元组语义。
U 为一组属性。
D 为属性组 U 中的属性所来自的域(即取值范围)。
DOM 为属性到域的映射(即具体的取值)。
F 为属性组 U 上的一组数据依赖

2. 数据依赖

数据依赖: 一个关系内部属性与属性之间的约束关系,现实世界属间相互联系的抽象,数据内在的性质,语义的体现(表示的谁可以决定谁的关系,是由现实世界决定的关系,比如身份证号确定一个人的其他属性,这是有现实语义决定的)。
主要有两类数据依赖:
函数依赖(Functional Dependency,简记为FD)
多值依赖(Multivalued Dependency,简记为MVD)

3.好的关系模式

不会发生插入异常、删除异常、更新异常,数据冗余应尽可能少。
在这里插入图片描述
如图的关系模式中,涉及的对象包括学生的学号(Sno)、所在系(Sdept)系主任姓名(Mname)、课程名(Cname)、成绩(Grade)
数据冗余
比如,每一个系的系主任姓名重复出现,重复次数与该系所有学生的所有课程成绩出现次数相同,如表6.1所示。这将浪费大量的存储空间。
更新异常(update anomalies)
由于数据冗余,当更新数据库中的数据时,系统要付出很大的代价来维护数据库的完整性,否则会面临数据不一致的危险。比如,某系更换系主任后,必须修改与该系学生有关的每一个元组。
插入异常(insertion anomalies)
如果一个系刚成立,尚无学生,则无法把这个系及其系主任的信息存入数据库
删除异常(deletion anomalies)
如果某个系的学生全部毕业了,则在删除该系学生信息的同时,这个系及其系主任的信息也丢掉了。
上述的关系模式不是一个好的关系模式。这是由存在于模式中的某些数据依赖引起的,可以通过分解关系模式来消除其中不合适的数据依赖。

6.2 规范化

规范化理论正是用来改造关系模式,通过分解关系模式来消除其中不合适的数据依赖,以解决插入异常、删除异常、更新异常和数据冗余问题。

6.2.1 函数依赖

1. 定义

函数依赖的定义: 设 R(U) 是一个属性集U上的关系模式, X 和 Y 是 U 的子集。若对于 R(U) 的任意一个可能的关系 r ,r 中不可能存在两个元组在 X 上的属性值相等, 而在 Y 上的属性值不等, 则称 “ X 函数确定 Y ” 或 “ Y 函数依赖于 X ”,记作 X→Y。(就是一个X只能对应一个Y)
若X→Y,则X称为这个函数依赖的决定属性组,也称为决定因素。
若X→Y,Y→X,则记作 X<—>Y
若Y不函数依赖于X,则记作 X-/->Y

2. 类型

平凡的函数依赖: 如果 X→Y ,但 y属于x,则称 X→Y 是非平凡的函数依赖。(Y本来就是X的一部分,所以X当然可以决定Y,这是很“平凡的”)
非平凡的函数依赖: 若 X→Y ,但y不属于x , 则称 X→Y 是平凡的函数依赖。(Y与X没关系,但是X却能决定Y,这很“不平凡”)
完全函数依赖: 在 R(U) 中,如果 X→Y ,并且对于 X 的任何一个真子集 X’ ,都有 , 则称 Y 对 X 完全函数依赖,记作 (F = full)。(X的全部一起表示一个Y)
部分函数依赖: 若 X→Y ,但 Y 不完全函数依赖于 X ,则称 Y 对 X 部分函数依赖,记作 (P = part)。(X的一部分就可以表示Y了,如学号->姓名,(学号,身份证号)->姓名,后者就是一个部分函数依赖)
传递函数依赖: 在 R(U) 中,如果 ,, ,, 则称 Z 对 X 传递函数依赖

6.2.2 码

定义: 设 K 为 R<U,F> 中的属性或属性组合。若
, 则 K 称为 R 的侯选码(Candidate Key)。若候选码多于一个,则选定其中的一个做为主码(Primary Key)。包含在任何一个候选码中的属性 ,称为主属性(Prime attribute)(不一定是主码中的属性),不包含在任何码中的属性称为非主属性(Nonprime attribute)或非码属性(Non-key attribute)。整个属性组是码,称为全码(All-key)
关系模式 R 中属性或属性组X 并非 R的码,但 X 是另一个关系模式的码,则称 X 是R 的外部码(Foreign key)也称外码。主码与外部码一起提供了表示关系间联系的手段。

6.2.3 范式

关系数据库中的关系必须满足一定的要求,满足不同程度要求的为不同范式。
第一范式(1NF): 每一个分量必须是不可分的数据项,第一范式是对关系模式的最起码的要求。不满足第一范式的数据库模式不能称为关系数据库
一个低一级范式的关系模式,通过模式分解可以转换为若干个高一级范式的关系模式的集合,这种过程就叫规范化。

6.2.4 2NF

若R∈1NF,且每一个非主属性完全函数依赖于任何一个候选码,则R∈2NF,消除部分函数依赖。(⼀个表中只能保存⼀种数据,不可以把多种数据保存在同⼀张数据库表中)
采用投影分解法将一个1NF的关系分解为多个2NF的关系,可以在一定程度上减轻原1NF关系中存在的插入异常、删除异常、数据冗余度大、修改复杂等问题。
将一个1NF关系分解为多个2NF的关系,并不能完全消除关系模式中的各种异常情况和数据冗余

6.2.5 3NF

关系模式 R<U,F> 中若不存在这样的码 X 、属性组 Y 及非主属性 Z (), 使得X→Y,Y→Z成立, ,则称 R<U,F> ∈ 3NF, 消除非主属性对码的传递依赖。若R∈3NF,则每一个非主属性既不部分依赖于码也不传递依赖于码。⽐如在设计⼀个订单数据表的时候,可以将客户编号作为⼀个外键和订单表建⽴相应的关系。⽽不可以在订单表中添加关于客户其它信息(⽐如姓名、所属公司等)的字段。

6.2.6 BCNF

关系模式 R<U,F>∈1NF,若X→Y且 时 X 必含有码,则 R<U,F>∈BCNF。排除码内的传递依赖和部分依赖。
等价于:每一个决定属性因素都包含码。
判断方法:
所有非主属性对每一个码都是完全函数依赖。
所有的主属性对每一个不包含它的码,也是完全函数依赖。
没有任何属性完全函数依赖于非码的任何一组属性。

6.2.7 多值依赖

1.定义
设R(U)是一个属性集U上的一个关系模式, X、 Y和Z是U的子集,并且Z=U-X-Y。关系模式R(U)中多值依赖 X→→Y成立,当且仅当对R(U)的任一关系r,给定的一对(x,z)值,有一组Y的值,这组值仅仅决定于x值而与z值无关。
若X→→Y,而Z=φ,则称X→→Y为平凡的多值依赖,否则称X→→Y为非平凡的多值依赖

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值