第九章关系查询处理和查询优化_关系表达式的执行效率-CSDN博客

本文链接：https://blog.csdn.net/xuzhan666/article/details/84793474

关系查询处理和查询优化

9.1 关系数据库系统的查询处理
9.1.1 查询处理步骤
关系数据库管理系统查询处理阶段：
1. 查询分析
2. 查询检查
3. 查询优化
4. 查询执行
9.1.2 实现查询操作的算法示例
1.选择操作的实现
选择操作典型实现方法：
（1）全表扫描方法 (Table Scan)
对查询的基本表顺序扫描，逐一检查每个元组是否满足选择条件，把满足条件的元组作为结果输出
适合小表，不适合大表
（2）索引扫描方法 (Index Scan)
适合于选择条件中的属性上有索引(例如B+树索引或Hash索引)
通过索引先找到满足条件的元组主码或元组指针，再通过元组指针直接在查询的基本表中找到元组
[例9.1] SELECT *
                FROM Student
                WHERE <条件表达式>
   考虑<条件表达式>的几种情况：
    C1：无条件；
     C2：Sno＝'201215121'；
     C3：Sage>20；
     C4：Sdept＝'CS' AND Sage>20；
全表扫描算法
假设可以使用的内存为M块，全表扫描算法思想：
按照物理次序读Student的M块到内存
检查内存的每个元组t，如果满足选择条件，则输出t
如果student还有其他块未被处理，重复①和②
索引扫描算法
[例9.1-C2] SELECT *
                     FROM Student
                     WHERE    Sno='201215121'
假设Sno上有索引(或Sno是散列码)
算法：
使用索引(或散列)得到Sno为‘201215121’ 元组的指针
通过元组指针在Student表中检索到该学生
2.连接操作的实现
连接操作是查询处理中最耗时的操作之一
本节只讨论等值连接(或自然连接)最常用的实现算法
[例9.2]   SELECT *
                  FROM    Student, SC
                  WHERE Student.Sno=SC.Sno;
（1）嵌套循环算法(nested loop join)
（2）排序-合并算法(sort-merge join 或merge join)
（3）索引连接(index join)算法
（4）Hash Join算法
9.2 关系数据库系统的查询优化
查询优化在关系数据库系统中有着非常重要的地位
关系查询优化是影响关系数据库管理系统性能的关键因素
由于关系表达式的语义级别很高，使关系系统可以从关系表达式中分析查询语义，提供了执行查询优化的可能性
9.2.1查询优化概述
关系系统的查询优化
是关系数据库管理系统实现的关键技术又是关系系统的优点所在
减轻了用户选择存取路径的负担
关系数据库管理系统通过某种代价模型计算出各种查询执行策略的执行代价，然后选取代价最小的执行方案
集中式数据库
执行开销主要包括
磁盘存取块数(I/O代价)
处理机时间(CPU代价)
查询的内存开销
I/O代价是最主要的
分布式数据库
总代价=I/O代价+CPU代价+内存代价＋通信代价
查询优化的总目标
选择有效的策略
求得给定关系表达式的值
使得查询代价最小(实际上是较小)
9.2.2一个实例
一个关系查询可以对应不同的执行方案，其效率可能相差非常大。
[例9.3] 求选修了2号课程的学生姓名。
    用SQL表达：
          SELECT Student.Sname
    FROM      Student, SC
    WHERE   Student.Sno=SC.Sno AND                       SC.Cno=’2’
假定学生-课程数据库中有1000个学生记录，10000个选课记录
选修2号课程的选课记录为50个
（1）计算广义笛卡尔积
算法：
在内存中尽可能多地装入某个表(如Student表)的若干块，留出一块存放另一个表(如SC表)的元组。
把SC中的每个元组和Student中每个元组连接，连接后的元组装满一块后就写到中间文件上
从SC中读入一块和内存中的Student元组连接，直到SC表处理完。
再读入若干块Student元组，读入一块SC元组
重复上述处理过程，直到把Student表处理完
设一个块能装10个Student元组或100个SC元组，在内存中存放5块Student元组和1块SC元组，则读取总块数为

                   ＋                   =100+20×100=2100块

读Student表100块，读SC表20遍，每遍100块，则总计要读取2100数据块。
连接后的元组数为103×104=107。设每块能装10个元组，则写出106 块。
（2）作选择操作
依次读入连接后的元组，按照选择条件选取满足要求的记录
假定内存处理时间忽略。读取中间文件花费的时间(同写中间文件一样)需读入106块。
若满足条件的元组假设仅50个，均可放在内存。
（3）作投影操作
把第（2）步的结果在Sname上作投影输出，得到最终结果

第一种情况下执行查询的总读写数据块=2100+106 +106
2.第二种情况
    Q2=πSname(σSc.Cno='2' (Student     SC))
（1）计算自然连接
执行自然连接，读取Student和SC表的策略不变，总的读取块数仍为2100块
自然连接的结果比第一种情况大大减少，为104个元组
写出数据块= 103 块
（2）读取中间文件块，执行选择运算，读取的数据块=
          103 块
（3）把第2步结果投影输出。
第二种情况下执行查询的总读写数据块=2100+ 103 +103
其执行代价大约是第一种情况的488分之一
9.3 代数优化
9.3.1 关系代数表达式等价变换规则
代数优化策略：通过对关系代数表达式的等价变换来提高查询效率
关系代数表达式的等价：指用相同的关系代替两个表达式中相应的关系所得到的结果是相同的
两个关系表达式E1和E2是等价的，可记为E1≡E2
9.3.2 查询树的启发式优化
典型的启发式规则
（1）选择运算应尽可能先做
     在优化策略中这是最重要、最基本的一条。
（2）把投影运算和选择运算同时进行
如有若干投影和选择运算，并且它们都对同一个关系操作，则可以在扫描此关系的同时完成所有的这些运算以避免重复扫描关系。
（3）把投影同其前或其后的双目运算结合起来，没有必要为了去掉某些字段而扫描一遍关系。
（4）把某些选择同在它前面要执行的笛卡尔积结合起来成为一个连接运算，连接特别是等值连接运算要比同样关系上的笛卡尔积省很多时间。
（5）找出公共子表达式
如果这种重复出现的子表达式的结果不是很大的关系
并且从外存中读入这个关系比计算该子表达式的时间少得多
则先计算一次公共子表达式并把结果写入中间文件是合算的。
当查询的是视图时，定义视图的表达式就是公共子表达式的情况

优化的一般步骤
（1）把查询转换成某种内部表示

例：求选修了课程Ｃ2的学生姓名
    SELECT Student.Sname
    FROM    Student, SC
    WHERE Student.Sno=SC.Sno
    AND     SC.Cno='2';
1)FROM STUDENT,SC ≡ STUDENT×SC
2)σ STUDENT.SNO=SC.SNO ∧ SC.CNO=‘2’ (STUDENT×SC)
3)SELECT SNAME≡∏SNAME

9.4 物理优化
（1）代数优化改变查询语句中操作的次序和组合，不涉及底层的存取路径
（2）对于一个查询语句有许多存取方案，它们的执行效率不同，仅仅进行代数优化是不够的
（3）物理优化就是要选择高效合理的操作算法或存取路径，求得优化的查询计划
（4）物理优化方法
基于规则的启发式优化
启发式规则是指那些在大多数情况下都适用，但不是在每种情况下都是适用的规则。
基于代价估算的优化
优化器估算不同执行策略的代价，并选出具有最小代价的执行计划。
两者结合的优化方法：
常常先使用启发式规则，选取若干较优的候选方案，减少代价估算的工作量
然后分别计算这些候选方案的执行代价，较快地选出最终的优化方案
9.4.1 基于启发式规则的存取路径选择优化
1.选择操作的启发式规则
对于小关系，使用全表顺序扫描，即使选择列上有索引
对于大关系，启发式规则有：
       （1）对于选择条件是“主码＝值”的查询
查询结果最多是一个元组，可以选择主码索引
一般的关系数据库管理系统会自动建立主码索引
（2）对于选择条件是“非主属性＝值”的查询，并且选择列上有索引
要估算查询结果的元组数目
如果比例较小(<10%)可以使用索引扫描方法
否则还是使用全表顺序扫描
（3）对于选择条件是属性上的非等值查询或者范围查询，并且选择列上有索引
要估算查询结果的元组数目
如果比例较小(<10%)可以使用索引扫描方法
否则还是使用全表顺序扫描
（4）对于用AND连接的合取选择条件
如果有涉及这些属性的组合索引
优先采用组合索引扫描方法
如果某些属性上有一般的索引，可以用索引扫描方法
通过分别查找满足每个条件的指针，求指针的交集
通过索引查找满足部分条件的元组，然后在扫描这些元组时判断是否满足剩余条件
其他情况：使用全表顺序扫描
（5）对于用OR连接的析取选择条件，一般使用全表顺序扫描
2.连接操作的启发式规则
  （1）如果2个表都已经按照连接属性排序
选用排序-合并算法
  （2）如果一个表在连接属性上有索引
选用索引连接算法
  （3）如果上面2个规则都不适用，其中一个表较小
选用Hash join算法
（4）可以选用嵌套循环方法，并选择其中较小的表，确切地讲是占用的块数(b)较少的表，作为外表(外循环的表) 。
    理由：
设连接表R与S分别占用的块数为Br与Bs
连接操作使用的内存缓冲区块数为K
分配K-1块给外表
如果R为外表，则嵌套循环法存取的块数为Br+BrBs/(K-1)
显然应该选块数小的表作为外表