利用文件映射和多线程技术进行大文件排序（>200万记录数）

最新推荐文章于 2018-01-29 16:26:12 发布

zlcook

最新推荐文章于 2018-01-29 16:26:12 发布

阅读量1.2k

点赞数

分类专栏： c语言高级编程文章标签：多线程排序文件映射分治算法高级程序设计

本文链接：https://blog.csdn.net/zl594389970/article/details/32703251

版权

c语言高级编程专栏收录该内容

1 篇文章 0 订阅

订阅专栏

资源下载地址：http://download.csdn.net/detail/zl594389970/7525731

该程序可以实现对大数据文件的快速排序，选择的开启排序的线程数不同，排序的效率就会不同。在对大文件排序时所采取的步骤为：首先会把全部数据分成若干份分别交由每一个线程独立分成分块内的排序，然后把每个线程排序完成后的排序结果进行合并形成最终的结果文件。

根据设计原理只有被指定的线程数只有是2的幂次时系统才会正确运行，所以在用户指定线程数时，系统会自动检测指定的线程数是否是2的幂次，如果是2的幂次则返回该数值，如果不是2的幂次则会返回大于指定值的最小2的幂次数。

为了解决大文件数据记录不能够被所指定的线程数整除的情况，该程序做了如下处理：首先程序会检测被排序的记录数能不能够被指定开启的线程数所整除，如果发现能够被线程数整数，则按照上述步骤处理，如果发现不能被线程数整除，则程序会再开启一个线程用于排序被余下的数据，另开启的线程的唤醒时间和其它线程不一样，它会在其它的线程都排序和合并完成后才开始唤醒工作，它的任务除了排序总数据记录数被指定线程数整除余下的数据外，还会把排序好的数据和其它线程排序好的数据合并起来。

分治处理算法：

该程序采用了分治处理算法，它将要进行排序的数组分为更小的数组，每个小数组分别排序，各个排了序的数组按对合并，生成更大的、已排序的数组，如此成对合并持续下去，直到完成。总的来说，合并排序从小数组开始，小的数组可以使用简单的算法高效的排序，但是本程序以一个更大的数组开始（整个映射文件），这样每个处理器可以有一个数组。

分治处理算法原理图：

测试结果：

4.1生成大数据文件

①在控制台进入程序的根目录调用randfile程序在程序的根目录下生成2百万条记录的大文件a.txt，同时在复制一份取a2.txt，放在根目录下。

输入：randfile 2000000 a.txt

输出：在根目录下产生一份大数据文件a.txt

图4-1创建2百万个数据记录的大文件

图4-2在根目录下生成和复制的两份文件

图4-3两份文件中的部分数据

4.2多线程排序

运行程序选择多线程排序操作，然后输入排序的线程数和排序的文件便会进入排序状态，排序完成后会给出排序的时间。

①该测试对a.txt文件开启4个线程进行排序。

输入：4，a.txt

输出：耗时2.128秒，文件排序完成

图4-4多线程排序结果

4.3单线程排序

运行程序选择单线程排序操作，然后输入排序的文件便会进入排序状态，排序完成后会给出排序的时间。

①该测试对a2.txt文件进行排序。

输入：a2.txt

输出：耗时8.715秒，文件排序完成

图4-5多线程排序结果

4.4文件排序结果比较

①对a.txt和a2.txt文件进行比较，其中a.txt已被多线程排完序，而a2.txt未进行排序。

输入：a.txt 和a2.txt

输出：a.txt和a2.txt的文件排序结果不同

运行结果图如下：

图4-6 a.txt(已排序）和a2.txt(未排序）的比较结果

②对a.txt和a2.txt文件进行比较，其中a.txt已被多线程排完序，而a2.txt已被单线程进行排序过。

输入：a.txt 和a2.txt

输出：a.txt和a2.txt的文件排序结果相同

运行结果图如下：

图4-7 a.txt(已排序）和a2.txt(已排序）的比较结果

zlcook

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
利用文件映射和多线程技术进行大文件排序（>200万记录数）

该功能可以实现对大数据文件的快速排序，选择的开启排序的线程数不同，排序的效率就会不同。在对大文件排序时所采取的步骤为：首先会把全部数据分成若干份分别交由每一个线程独立分成分块内的排序，然后把每个线程排序完成后的排序结果进行合并形成最终的结果文件。根据设计原理只有被指定的线程数只有是2的幂次时系统才会正确运行，所以在用户指定线程数时，系统会自动检测指定的线程数是否是2的幂次，如果是2的幂次则返回
复制链接

扫一扫