等概率随机取数算法的几种实现
最近读了项目中的工具脚本,发现一个随机取数的函数,功能大概是从M个数中不重复的随机取出N个数,算是数组随机排序然后取前N个值的变种。
脚本实现采取原始的方法,每随机取一个数就放到一个数组中,下次取数时遍历结果数组判断是否已经取出,平均时间复杂度为O(MlogM),空间复杂度O(N),效率不高。
想了一下解决方案,能优化的地方应该就是将遍历数组判断是否取出使用哈希或者红黑树实现,以空间换时间,虽然可以降低时间复杂度,但原算法仍存在问题:当M接近于N的时候,效率会急剧下降,十分恐怖。
如果借助洗牌算法,获取一个随机排列的子集,便能实现等概率随机取数的功能。
1. Fisher-Yates Shuffle算法
最早于1938年由Ronald Fisher和Frank Yates所著《Statistical tables for biological,agricultural and medical research》提出,算法描述为:
- 将1到N数字存到数组中
- 从数组中取一个1到剩下数字个数的随机数k
- 从低位开始,将数组第k个数字取出,并保存到结果数组末尾
- 重复第2步,直到所有数字都被取出
- 第3步得到的结果数组就是所求的随机序列
该算法存在对数组随机元素的删除操作,时间复杂度O(N^2),空间复杂度O(M),效率仍然比较低。