《编程珠玑》读书笔记第一章
解决一个排序问题
描述
输入:
一个最多包含n个正整数的文件,每个数都小于n,n=10^7,没有重复数据,数据之间互不关联。
输出:
按升序排列的整数列表。
约束:
最多有1MB内存空间可用,运行时间最多几分钟。
解决问题
条件:
- 输入数据限制在较小的范围内
- 没有重复数据
- 每条数据互补关联
约束:
空间有限,需要用特殊方法表示数据集合
方法:
1. 普通归并排序(读入一次,工作文件多次读写排序)
2. 利用条件特殊性,遍历文件40遍,每一次遍历取从小到大的250000个数据,进行排序后输出(读取40次,输出一次,不使用中间文件)
3. 结合1,2,读入一次,且不使用中间文件
需要解决的问题转化为:是否能用800W可用位来标示最多1000W个互异的整数,考虑合适的表示方式。
用位图方法表示集合:
输入数据为7位数,所以都小于1000W,使用一个1000W位长的字符串,当整数i在集合中时,第i位为1,否则为0.
实现步骤
- 将所有位置为0,初始化集合
- 读入文件中的数据,将相应位置的数据置为1
- 检验字符串中每一位,若为1,就输出该文件。