数据库范式指的是关系型数据库设计中对数据表结构的规范化过程,以减少冗余信息和数据不一致性,提高数据操作效率和数据更改可维护性的程度。
在关系型数据库中,一张表包含多个字段,每个字段存储不同的数据。如果表的设计不合规范,数据可能会存在不必要的冗余(重复)数据、数据可更新性差、查询效率低下以及保存不一致性的问题。
范式规范了数据库的设计,将表的字段分解到多张表中,通过建立关系保证数据的一致性。通常情况下,范式的级别越高越符合规范,但范式的级别过高也会造成关系模型复杂和查询效率降低的问题。
以一个小例子来说明:
例如我们有一个学生选课的信息表格,其基本信息如下:
学号 | 姓名 | 课程名 | 系别 | 选课成绩 |
---|---|---|---|---|
001 | 张三 | 数据库 | 计算机系 | 85 |
002 | 李四 | Java | 计算机系 | 92 |
003 | 张三 | Java | 计算机系 | 88 |
004 | 王五 | 数据库 | 计算机系 | 90 |
可以看到,姓名和系别这两个字段是有重复的,如果使用此表来查询某个学生的信息,会产生冗余数据。我们需要对数据表格进行规范,使用范式来分解数据表格,简化数据表格信息。
1.第一范式(1NF):确保每列具有原子性,不可分解。例如,姓名和系别应该分别单独成为一张表格。
下面是第一范式改进的版本:
Student表格:
学号 | 姓名 |
---|---|
001 | 张三 |
002 | 李四 |
003 | 张三 |
004 | 王五 |
Department表格:
系别 |
---|
计算机系 |
2。第二范式(2NF):确保表中的非主键列完全依赖于表中的主键列,是一个完整程度更高的范式。例如,一个学生选课记录表格应该至少包含学号和课程编号两个字段作为主键。
下面是第二范式改进的版本:
Student表格:
学号 | 姓名 |
---|---|
001 | 张三 |
002 | 李四 |
003 | 张三 |
004 | 王五 |
Department表格:
系别 |
---|
计算机系 |
Score表格:
学号 | 课程名 | 选课成绩 |
---|---|---|
001 | 数据库 | 85 |
002 | Java | 92 |
003 | Java | 88 |
004 | 数据库 | 90 |
3.第三范式(3NF):确保非主键列之间没有传递依赖,每个非主键列只依赖于主键列。例如,学生的系别只与学生的学号相关,与选课信息的课程没有关系。
下面是第三范式改进的版本:
Student表格:
学号 | 姓名 | 系别 |
---|---|---|
001 | 张三 | 计算机系 |
002 | 李四 | 计算机系 |
003 | 张三 | 计算机系 |
004 | 王五 | 计算机系 |
Department表格:
系别 |
---|
计算机系 |
Course表格:
课程编号 | 课程名 |
---|---|
01 | 数据库 |
02 | Java |
Score表格:
学号 | 课程编号 | 选课成绩 |
---|---|---|
001 | 01 | 85 |
002 | 02 | 92 |
003 | 02 | 88 |
004 | 01 | 90 |
可以看到,在规范化的过程中,学生选课信息表被分解为多张数据表,每张表只存储特定的信息,并通过主键和外键建立关系。这有利于数据更改、维护和查询。