数据规范大致分为 第一范式 、第二范式、第三范式三类,今天我们就来详细探讨一下
第一范式:(1NF)无重复的列
首先第一范式,官方的定义是指数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。如果出现重复的属性,就可能需要定义一个新的实体,新的实体由重复的属性构成,新实体与原实体之间为一对多关系。在第一范式1NF中表的每一行只包含一个实例的信息。简而言之,第一范式就是无重复的列,语言比较多,但实际上总结出来,就是一点,数据不重复且不可分割
以一个学生类进行示例:
假如我们需要统计学生的个人信息,常规的数据表设计方案是这样的
这样的一个表,结构上倒也能使用,但是如果后续的需求变为,让你统计学生中来自湖北的学生有多少,那这个数据结构就显得心有余而力不足了,这个时候我们应该将表优化为如下格式
这样子的话,省份|地市|区县|街道都可以参与条件查询与计算了,这个时候就满足第一范式了。
这个时候我们来从函数依赖的角度来研究这几个字段,这个表的候选码是学号和姓名,学号可以推导出姓名,姓名可以推导出性别和年龄,这个时候可以看出该表存在传递函数依赖,必然不满足第三范式,而学号、姓名无法推导出省份,地市等,说明这个表目前存在部分函数依赖,不满足第二范式,接下来我们来看看第二范式的定义。
第二范式:(2NF)属性完全依赖于主键
第二范式建立在第一范式的基础上,即满足第二范式一定满足第一范式,第二范式要求数据表每一个实例或者行必须被唯一标识。除满足第一范式外还有两个条件,一是表必须有一个主键;二是没有包含在主键中的列必须完全依赖于主键,而不能只依赖于主键的一部分。每一行的数据只能与其中一列相关,即一行数据只做一件事。只要数据列中出现数据重复,就要把表拆分开来。
那如果需要将上面的表修改为第二范式,需要进行下述拆分,就可以满足第二范式了;
表一:学号|姓名|性别|年龄|
表二:地址编号|省份|地市|区县|详细地址
第三范式:(3NF)属性不依赖于其它非主属性
第三范式若某一范式是第二范式,且每一个非主属性都不传递依赖于该范式的候选键,则称为第三范式,即不能存在:非主键列 A 依赖于非主键列 B,非主键列 B 依赖于主键的情况。