我们首先来了解SQL Server是如何存储数据的。
SQL Server会把磁盘分割成:
- 页(Page):每一个页大小8KB,这是数据库文件存储的基本单位。所以,即使只写入最小最简单的一行,也要使用一页。但一页可以存储多行,一行也可以占用多页。页里面既可以存储表的实际数据(我们称之为“行数据”),也可以存储索引(后文会讲)数据,以及其他系统数据。
- 区(Extent):8个连续的页。区是磁盘空间管理的基本单位,啥意思呢?就是每次SQL Server分配空间,至少是一个区(8个页)。
所以,我们知道表的行数据是存放在页里面的。但是,一个数据库里面可以有多张表。比如我们的数据库现在有Student(学生)和Teacher(老师)两张表,然后两张表都可以被这样插入数据:
- 先在Student中插入1行数据
- 然后在Teacher中插入2行数据
- 接着又在Student中插入5行数据
- 再在Teacher中插入3行数据
- 还可以再删除掉Student的1行数据
- ……
最后两张表一共有100行数据,用了100个页,但这些页是散乱的、无序的堆放在一起的(能不能想象那种效果?就像一个仓库,货物可以整整齐齐井井有条的摆放,也可以随意的堆成一堆),所以这种(没有被聚集索引组织的)页也被称之:堆(Heap)。
那么,当运行如下SQL语句的时候
SELECT * FROM Student
SQL Server如何界定那些页(行)是属于Student表的呢?
实际上,如果一个表没有建立聚集索引(后文详述),SQL Server会为每一张表建立一个“索引分配映射(Index Allocation Map)”,由IAM依次记录这张表所使用的所有“页”的信息:
当使用SELECT进行表查找时,SQL Server会以IAM为基础,在IAM记录的所有页上依次查找,直到找到符合条件的数据。
—— 这就被称之为SQL Server的全表扫描 (Tab