海量数据解决方案知识总结

最新推荐文章于 2022-04-14 15:29:00 发布

z123271592

最新推荐文章于 2022-04-14 15:29:00 发布

阅读量431

点赞数 1

分类专栏：海量数据解决方案文章标签：海量数据解决方案索引磁盘存储

本文链接：https://blog.csdn.net/z123271592/article/details/51927186

版权

海量数据解决方案专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.数据最终是以某种特定的物理形式存储在磁盘上的，这就意味着数据的读取效率必定随着数据存储形式不同而不同。由于我们要读取的数据可能存放在磁盘上的任意位置上，所以读取效率必定随着表结构和读取手段是否走索引不同而不同。影响读取效率的因素不仅有数据物理结构的差异，而且还有执行计划的差异，通常执行计划的影响远远大于物理结构。

2.数据的存储方式可以分为两种
随机存储方式按照输入的顺序，数据被存储在磁盘的任意空位置上
数据存效率高，但是在读取数据时代价增加，固定存储方式是指数据被存储在预算制定的磁盘位置上，数据存取效率低读取数据块。

3.表和索引分离型
其实就是堆表。即用来存储数据的表和为了快速查找特定数据而使用的索引完全作为不同的对象来进行存储。

4 堆表的结构

存储的数据块 block 会有参数值 PCTFREE 和 PCTUSED
另外会有一个记录表Free List 来记录可以被重新使用的数据块号码
假如 block为空则一般可用，如果不为空，则需要考虑其未使用的空间比例是否大于预先设定的比例值，如果大于PCTFREE，则可可以被重新使用则该block 被标记状态可重用。

5 聚簇因子 Cluster Factor
按照索引列值进行了排序的索引行序和对应表中数据行序的相似程度。

堆表的最大特征就是数据的存储独立性，即数据的存储和数据值没有任何关联地被存储在磁盘的任意位置上。。其实也就是随机存储方式，数据所占用的位置分散在不同的数据块上。

在这种存储状态下，查询相同数据所执行的物理读取数量会随着查询数据的分散程度而不同 eg 同时读取 10行数据，逻辑上读取的行数是一样的，可是读取10行在不同数据块的数据与读取在两块数据在物理IO读取的数据块数却相差5倍。

在关系型数据库上，不论在什么情况下，每次最少都要读取一个数据块。尽管我们需要读取的是行，这样如果我们读取的数据在同一块上，这样我们接下来读取的数据会直接在内存中读取。如果内存命中了我们所要查询的数据行，则在很大程度上就能减少物理IO的数量。在一般情况下，在内存块上查询数据的速度比从磁盘上查询数据的速度快30倍左右。即数据的分散程度高，读取效率低。