规范化与非规范化广东精鹰软件工作室(刘正仁) 笔记

最新推荐文章于 2024-09-22 11:17:00 发布

wmbb

最新推荐文章于 2024-09-22 11:17:00 发布

阅读量1.5k

点赞数

分类专栏：数据库文章标签：工作数据库 null 存储产品 join

本文链接：https://blog.csdn.net/wmbb/article/details/669642

版权

数据库专栏收录该内容

2 篇文章 0 订阅

订阅专栏

规范化

规范化逻辑数据库设计包括把数据组织成多个表。规范化通过减少冗余来改善性能。冗余能导致：

n 不一致——当同一事实被存放多份时容易发生错误。

n 更新异常——插入，修改和删除数据可以导致不一致。

当一个表在更新或删除时，很可以忽略对其他关系作相应的修改。

正规化有众多的益处。这些包含快速排序和创建索引，每个表有很少的索引，很少的NULL值增加了数据库的紧凑性。然而，随着规范化的深入，数量和复杂性也增加了。如果数量的增加在于表的增加，数据库的性能可能恶化。规范化帮助简化表的结构。应用程序的性能是直接与数据库设计相关的。粗劣的设计会妨碍系统的性能。数据库的逻辑设计忙以理想的数据库为基础的。

为了完成一个良好的数据库设计必须遵守一些规则：

n 每个表都有标识符。

n 每个表交为实体的单个类型存储数据。

n 在表中应避免NULL值列。

n 在表中应避免值或列的重复。

范式

规范化能使表满足一定的约束条件，并达到某一个范式。范式保证在数据库里不包含任何类型的冗余和不一致。范式是具有最小冗余度的表结构。现在已经定主了一些范式。最重要的，使用最广泛的是非曲直：

n 第一范式（1NF）

n 第二范式（2NF）

n 第三范式（3NF）

n Boyce-Codd范式（BCNF）

第一范式（1NF）

当表中每个单元包含用仅含一个值时，这个表叫作第一范式（1NF）。

考虑下列表Project.

Profect

*Ecode*	*Dept*	*ProjCode*	*Hours*
E101	Systems	P27 P51 P20	90 101 60
E305	Sales	P27 P22	109 98
E508	Admin	P51 P27	NULL 72

表中的数据没有规范化因为ProjCode和Hours单元里有一个以上值。

在Project表里应用第一范式的定义，你得到下表

Profect

*Ecode*	*Dept*	*ProjCode*	*Hours*
E101	Systems	P27	90
E101	Systems	P51	101
E101	Systems	P20	60
E305	Sales	P27	109
E305	Sales	P22	98
E508	Admin	P51	NULL
E508	Admin	P27	72

函数相关性

规范化理论是以函数相关性的基本的概念为基础。首先，让我们了解函数相关性的概念。

给定一个关系（你可以回想起表也称关系）R，如果R中A的每个值都与B的某一确定值对应，则属性A函数依赖于属性B。

换句话说，属性A函数依赖于属性B是仅当B的每个值，都有A的某一确定值对应。属性B被称为决定因素。

考虑下表Employee:

Employee

*Code*	*Name*	*City*
E1	Mac	Delhi
E2	Sandra	CA
E3	Henry	France

给定了Code 值，就有唯一确定的Name值。例如，对于Code E1有唯一确定的Name值，Mac。因此，Name函数依赖Code。同样地，对于每个Code 值，都有唯一确定的 City值。因此，属性City函数依赖属性Code。属性Code是决定因素。你也能说Code决定City和Name。

第二范式（2 NF）

一个表称为2 NF是当它是1NF，并且记录中的所有非关键字属性都不部分依赖于关键字。

考虑Project表

Project

ECode

ProjCode

Dept

Hours

这表有下列记录

*Ecode*	*ProjCode*	*Dept*	*Hours*
E101	P27	Systems	90
E305	P27	Finance	10
E508	P51	Admin	NULL
E101	P51	Systems	101
E101	P20	Systems	60
E508	P27	Admin	72

这情形能导致下列列问题：

n 插入

在被指定项目之前，部门的职员不能记录在案

n 更新

对于个个职员来说，其代码和部门被重复多次。因此，如果一个职员转到另一个部门，这将修改Employee表的每条记录。任何忽略都将导致不一致。

n 删除

如果职员完成工作项目，职员的记录将被删除。职员所属部门的信息也将丢失。

这里主关键字是复合的（ECode+ProjCode）

表满足1NF的定义。你现在需要检查它是否满足2NF。

在表中，对于每个ECode的值，有不止一个Hours.值。例如，ECode为E101，有三个Hours值：90，101和60。因此，Hours并不函数依赖于Ecode。同样地，对于每个ProjCode值，有不止一个Hours.值。例如，ProjCode为P27，有三个Hours值，90，10和72。然而，对于每个ECode和ProjCode的组合值，都有唯一确定的Hours值。因此，Hours是函数依靠于组合键，ECode+ProjCode.

现在，你必须检查Dept.是否也函数依赖于复合主关键字，ECode+ProjCode，对于每个ECode值，都有唯一确定的Dept值，例如，对于ECode，101，有唯一确定值，系统部门。因此Dept函数依赖于ECode，然而，对于每个ProjCode值，有不止一个Dept值。例如，对于ProjCode P27，有二个Dept值，系统和财务。因此，Dept并不函数依赖于ProjCode。Dept，因此，函数依赖于关键字的部分（ECode）而不是全部关键字（ECode+ProjCode）。因此，表Prodect不在2NF。属于2NF的表，非关键字属性必须是完全而不是部分依赖于关键字。

转换表为2NF的准则

n 查找和去除只函数依赖于关键字的部分而不是全部的属性。把他们放置于不同的表内。

n 重组剩余的属性。

转换表Project为2NF，你必须去除那些不完全的函数依赖于主关键字的属性，把它和依赖于的属性置于同一张表内。在上述例子，既然Dept不完全函数依赖于主关键字ECode+ProjCode，你把Dept和ECode一起放在一张独立的称EmployeeDept的表内。

现在，表Project将包含ECode，ProjCode和Hours.

EmployeeDept Project

*ECode*	*Dept*
E101	Systems
E305	Sales
E508	Admin

*ECode*	*ProjCode*	*Hours*
E101	P27	90
E101	P51	101
E101	P20	60
E305	P27	10
E508	P51	NULL
E508	P27	72

第三范式（3NF）

关系被称为3NF是当这是2NF并且每个非关键字属性仅函数数依赖于主关键字。

考虑表格Employee

*ECode*	*Dept*	*DeptHead*
E101	Systems	E901
E305	Finance	E906
E402	Sales	E906
E508	Admin	E908
E607	Finance	E909
E608	Finance	E909

这种依赖会带来的问题是

n 插入

不能插入一个新的没有任何雇员的部门的部门负责人。这是因为主关键字未知。

n 更新

对于一个部门来说，部门负责人的（DeptHead）代码被多次重复，如果一个部门负责人调换了部门，必须对相应的表进行修改以保持一致性。

n 删除

如果职员的记录被删除，关于部门负责人的信息了将被删除。因此，将引起信息的丢失。

你必须检查表是否是3NF。既然在表里每个单元有单个值，表是在1NF。

在Employee表里主关键字是Ecode。对于Ecode的每个值，都有唯一确定的Dept值。因此，属性Dept函数依赖于主关键字，Ecode。同样的，对于每个Ecode值，都有唯一确定的DeptHead值。因此，DeptHead函数依赖于主关键字Ecode。因此，所有属性都全部函数依赖于主关键字，Ecode因此表是在2NF。