数据库知识梳理

最新推荐文章于 2024-04-12 15:47:51 发布

BigSun0

最新推荐文章于 2024-04-12 15:47:51 发布

阅读量1.2k

点赞数 2

分类专栏：数据库文章标签：数据库知识

本文链接：https://blog.csdn.net/wzk646795873/article/details/79823070

版权

概述：

对数据库索引、数据库锁、数据库事务、MySql优化等基础知识梳理。

1、数据库范式

（1）第一范式：列不可分,eg:【联系人】（姓名，性别，电话），一个联系人有家庭电话和公司电话，那么这种表结构设计就没有达到 1NF；

（2）第二范式：有主键，且其他属性完全依赖主键。eg:订单明细表【OrderDetail】（OrderID，ProductID，UnitPrice，Discount，Quantity，ProductName），Discount（折扣），Quantity（数量）完全依赖（取决）于主键（OderID，ProductID），而 UnitPrice，ProductName 只依赖于 ProductID，不符合2NF；

（3）第三范式：无传递依赖（非主键列A依赖于非主键列B，非主键B依赖于主键情况）。eg:订单表【Order】（OrderID，OrderDate，CustomerID，CustomerName，CustomerAddr，CustomerCity）主键是（OrderID），CustomerName，CustomerAddr，CustomerCity 直接依赖的是 CustomerID（非主键列），而不是直接依赖于主键，它是通过传递才依赖于主键，所以不符合 3NF。

2、数据库索引

索引是对数据库表中一个或多个列的值进行排序的数据结构,以协助快速查询、更新数据库表中数据。索引的实现通常使用B_Tree及其变种.索引加速了数据访问,因为存储引擎不会再去扫描整张表得到需要的数据；相反他从根节点开始,根节点保存了子节点的指针,存储引擎根据指针快速寻找数据。

上图显示了一种索引方式。左边是数据库中的数据表，有col1和col2两个字段，一共有15条记录；右边是以col2列为索引列的B_TREE索引，每个节点包含索引的键值和对应数据表地址的指针,这样就可以通过B_TREE在O(logn)的时间复杂度内获取相应的数据，这样明显地加快了检索的速度。

2.1索引底层实现及优化

在数据结构中，我们最为常见的搜索结构就是二叉搜索树和AVL树(高度平衡的二叉搜索树，为了提高二叉搜索树的效率，减少树的平均搜索长度)了。然而，无论二叉搜索树还是AVL树，当数据量比较大时，都会由于树的深度过大而造成I/O读写过于频繁，进而导致查询效率低下，因此对于索引而言，多叉树结构成为不二选择。特别地，B-Tree的各种操作能使B树保持较低的高度，从而保证高效的查找效率。

2.1.1 B-Tree(平衡多路查找树)

B_Tree是一种平衡多路查找树,是一种动态查找效率很高的树形结构。B_TREE中所有结点的孩子结点的最大值称为B_TREE的阶，B_TREE的阶通常用m表示，简称为m叉树。一般来说，应该是m>=3。一颗m阶的B_TREE或是一颗空树，或者是满足下列条件的m叉树：

（1）树中每个节点最多有m个孩子节点。

（2）若根节点不是叶子节点,则根节点至少有两个孩子节点。

（3）除根节点外,其他结点至少有（m/2的上界）个孩子节点。

（4）结点结构如下图：其中,n为结点中关键字个数,(m/2的上界)-1<=n<=m-1;di（1<=i<=n）为该节点n个关键字值的第i个,且di<d(i+1);ci(0<=i<=n)为该结点孩子结点的指针,且ci所指向的节点的关键字均大于等于di且小于d（i+1）。

（5）所有叶节点都在同一层上,且不带信息（可以看做是外部节点或查找失败的结点,实际上这些节点不存在,指向这些节点的指针为null）

案例：

下图是一棵4阶B_TREE，4叉树结点的孩子结点的个数范围[2,4]。其中，有2个结点有4个孩子结点，有1个结点有3个孩子结点，有5个结点有2个孩子结点。

B_TREE的查找类似二叉排序树的查找，所不同的是B-树每个结点上是多关键码的有序表，在到达某个结点时，先在有序表中查找，若找到，则查找成功；否则，到按照对应的指针信息指向的子树中去查找，当到达叶子结点时，则说明树中没有对应的关键码。由于B_TREE的高检索效率，B-树主要应用在文件系统和数据库中，对于存储在硬盘上的大型数据库文件，可以极大程度减少访问硬盘次数，大幅度提高数据检索效率。

2.1.2 B+Tree：（InnoDB存储引擎的索引实现）

B+Tree是应文件系统所需而产生的一种B_TREE树的变形树。一棵m阶的B+树和m阶的B_TREE的差异在于以下三点：

（1）n棵子树的结点中含有n个关键字；

（2）所有的叶子结点中包含了全部关键码的信息,及指向含有这些关键码记录的指针,且叶子结点本身依关键码的大小自小而大的顺序链接。

（3）非终端结点可以看成是索引部分,结点中仅含有其子树根结点中最大（或最小）关键码。

案例：

下图为一棵3阶的B+树。通常在B+树上有两个头指针，一个指向根节点，另一个指向关键字最小的叶子节点。因此可以对B+树进行两种查找运算：一种是从最小关键字起顺序查找，另一种是从根节点开始，进行随机查找。

在B+树上进行随机查找、插入和删除的过程基本上与B-树类似。只是在查找时，若非终端结点上的关键码等于给定值，并不终止，而是继续向下直到叶子结点。因此，对于B+树，不管查找成功与否，每次查找都是走了一条从根到叶子结点的路径。

2.1.3 为什么说B+tree比B树更适合实际应用中操作系统文件索引和数据库索引？

（1）B+tree的磁盘读写代价更低：B+tree的内部结点并没有指向关键字具体信息的指针(红色部分)，因此其内部结点相对B 树更小。如果把所有同一内部结点的关键字存放在同一盘块中，那么盘块所能容纳的关键字数量也越多。一次性读入内存中的需要查找的关键字也就越多，相对来说IO读写次数也就降低了；

（2）B+tree的查询效率更加稳定：由于内部结点并不是最终指向文件内容的结点，而只是叶子结点中关键字的索引，所以，任何关键字的查找必须走一条从根结点到叶子结点的路。所有关键字查询的路径长度相同，导致每一个数据的查询效率相当；

（3）数据库索引采用B+树而不是B树的主要原因：B+树只要遍历叶子节点就可以实现整棵树的遍历，而且在数据库中基于范围的查询是非常频繁的，而B树只能中序遍历所有节点，效率太低。

2.1.4 文件索引和数据库索引为什么使用B+树？

（1）文件与数据库都是需要较大的存储，也就是说，它们都不可能全部存储在内存中，故需要存储到磁盘上。而所谓索引，则为了数据的快速定位与查找，那么索引的结构组织要尽量减少查找过程中磁盘I/O的存取次数，因此B+树相比B树更为合适。

（2）数据库系统巧妙利用了局部性原理与磁盘预读原理，将一个节点的大小设为等于一个页，这样每个节点只需要一次I/O就可以完全载入，而红黑树这种结构

最低0.47元/天解锁文章

BigSun0

关注

2
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
数据库知识梳理

概述：对数据库索引、数据库锁、数据库事务、MySql优化等基础知识梳理。1、数据库范式（1）第一范式：列不可分,eg:【联系人】（姓名，性别，电话），一个联系人有家庭电话和公司电话，那么这种表结构设计就没有达到 1NF；（2）第二范式：有主键，且其他属性完全依赖主键。eg:订单明细表【OrderDetail】（OrderID，ProductID，UnitPrice，Discount，Quantit...
复制链接

扫一扫