聚簇索引(Cluster Index)常常被误用,首先让我们来认识聚簇索引是什么。聚簇索引也叫作聚集索引,创建有聚簇索引的表时,表中数据是按照聚簇索引的索引列顺序存储的。
聚簇索引的数据按照顺序存放,对于查询一个范围值的SQL语句或者多个SQL语句,在需要查询相邻记录时,采用聚簇索引的I/O效率较高。由于数据是按顺序存储的,所以磁盘扫描为连续顺序扫描的方式,在这种场景下聚簇索引比非聚簇索引的离散扫描磁盘方式效率要高。
由于聚簇索引要求表的记录按顺序存放,所以在插入、删除记录以及更新聚簇索引列的UPDATE操作时,需要进行数据的移动。对于INSERT操作,首先根据索引找到对应的数据页,然后通过挪动已有的记录为新数据腾出空间,最后插入数据。在删除数据时将导致其下方的数据行向上移动以填充删除记录造成的空白。对于数据的删除操作,可能导致在索引页中仅有一条记录,这时,该记录可能会被移至邻近的索引页中,原索引页将被回收,即所谓的“索引合并”。聚集索引的建立会严重降低数据插入和删除的效率。
因此,聚簇索引能提高区间查询的查询性能,但会大大降低插入和删除记录的效率。在使用聚簇索引之前,一定要对表中记录的新增、删除和更新情况有全面了解,权衡后再创建。一般只建议在静态的表(表的记录不变化或者很少变化)上创建聚簇索引,避免在经常进行记录INSERT/DELETE/UPDATE操作的表上创建聚簇索引。