如何使K路归并外排序达到最优

最新推荐文章于 2023-10-01 06:00:00 发布

yxc135

最新推荐文章于 2023-10-01 06:00:00 发布

阅读量2.5k

点赞数

分类专栏：算法文章标签：最优 K路归并排序外排序

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yxc135/article/details/9112071

版权

算法专栏收录该内容

18 篇文章 0 订阅

订阅专栏

在谈到如何使K路归并更加快速时，大部分书上写的是增加路数K，但是他们都没有说明这其中很重要的一点，就是增加路数的同时他们将内存也扩大了。

下面我们分析现实中的情况，待排数据和内存大小都是确定的。

给定待排序的数据，大小为Sd，给定内存大小Sm，现在可控的只有分页大小（注意这个页与操作系统中的页没有任何关系，是排序的程序自定的数据分割单位，数据页），设为Sp：

内存的结构是：

Page 1

Page 2

......

Page K-1

Page K

Page K+1

其中，page1到pageK是输入缓冲，pageK+1是输出缓冲。

磁盘中存储数据的结构是：（每个数字代表一个数据页page，每个框代表一个归并好的数据块block，当框只有一个时，归并结束）

1

2

3

4

5

6

7

8

...

（归并开始前，页内排序前）

1

2

3

4

5

6

7

8

...

（归并开始前，页内排序后）

1 2

3 4

5 6

7 8

...

（第一遍归并结束后）

...

1 2 3 4 5 6 7 8 ...

（归并结束）

为了分析方便，记内存大小Sm = K+1 （page），待排序的数据大小Sd = D （page）

每一遍排序都有D个page被读到内存的K个输入缓冲中（在排序过程中，每当某个输入缓冲page空时，就会从磁盘读取对应block的下一个page），有D个page被写出到磁盘中（在排序过程中，每当输出缓冲page满时，就会将该page写出到磁盘），因此，每遍排序都有2D次IO。

而总共的遍数是log(K)(D)，因此总共的IO次数为2D*log(K)(D)。

有的书上就因为上面的式子得出结论K越大，IO次数越少，效率越高。然而，D不变的前提是，page的大小Sp是不变的（Sd = D*Sp，而原始数据Sd是不变的），而内存大小Sm = （K+1）*Sp，K变大，Sp又是不变的，所以只能是内存Sm变大。这点是不现实的！

下面以可控参数Sp（程序设定的数据分割单位——数据页的大小）表达IO次数：

替换D = Sd/Sp，M = Sm/Sp - 1，因此总IO次数的表达式为

2 * Sd / Sp * lg(Sd/Sp) / ( lg(Sm/Sp -1) )

给定Sd、Sm，上式中的变量就只有Sp，可以求出最佳的Sp使IO次数达到最小。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

yxc135 CSDN认证博客专家 CSDN认证企业博客

码龄13年

33: 原创

17万+: 周排名

227万+: 总排名

56万+: 访问

: 等级

4988: 积分

107: 粉丝

99: 获赞

76: 评论

226: 收藏

私信

关注

热门文章

分类专栏

JVM 14篇
并行计算 15篇
操作系统 20篇
Java 8篇
算法 18篇
Linux 7篇
C++ 7篇
网络 3篇
Python 10篇
杂记 9篇
随笔 2篇

最新评论

Decorator in Pyhton
github_35526155: 在加红字部分有点误人子弟了，，fib = memorize(fib) 执行后实际上全局域里面的fib重新关联到了装饰函数里面的helper了，所以递归调用的时候也会进入helper函数进行缓存的读取
关闭中断过程中是否会发生中断丢失
SSDDWSS: 应该是造成中断丢失吧。试想一个进程处于用户态，发生了中断，中断处理返回后一定还是从内核态进入用户态。那如果在处理中断的这些内核程序它也有中断，是内核中断。因为是关中断，所以无法响应它。试想如果现在处理完去响应这个内核中断的话，此时你的PLV显示的是用户态，怎么可能响应内核中断。你这里说的中断应该是指进程运行在用户态下的中断或者是内核态下这种单一的中断吧，如果两种状态切换，怎么运行啊？
中断向量表和中断描述符表IDT
hahajiajun: 牛逼，十分感谢大哥！
C语言实现读取FAT12文件系统
gavin546: 草，操作系统作业十年没变过了
GC日志分析
菜鸡一个，多多指教: ~来至2021年7月8号的评论。谢谢大佬，受教了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。