单次遍历，带权随机选取问题（二）

最新推荐文章于 2024-02-18 22:31:36 发布

ShenYounger

最新推荐文章于 2024-02-18 22:31:36 发布

阅读量901

点赞数

还是同样的问题：有一组数量未知的数据，每个元素有非负权重。要求只遍历一次，随机选取其中的一个元素，任何一个元素被选到的概率与其权重成正比。

在前一篇文章中介绍了概率分布的理论值，并用比较简洁高效的函数实现了选取一个元素的方法。现在来看一个神奇的算法，以及相关的证明和实现。

算法很简单：对于任意的i（1 <= i <= n），按照如下方法给第i个元素分配一个键值key（其中ri是一个0到1之间等概率分布的随机数）：

k e y (i) = r 1 / w i i

之后，如果要随机选取一个元素，就去key最大的那个；如果要选取m个元素，就取key最大的m个。

真不知道是怎么想出来的这样的方法，不过还是先来关注一下证明的过程。

程序实现

虽然证明过程异常恐怖，但实现起来却很简单。实际运算中，只要维持一个大小为m的最小堆（没错，是最小堆）来保存当前已知的最大的m个键值，每拿到一个新的元素，算出对应的键值，如果它比堆中的最小值大，就可以放入堆中替换掉最小值。Python实现函数如下：

from random import Random
from heapq import *

def WeightedRandomSample(m=1, rand=None):
  assert m > 0, 'invalid m'
  selection = []
  heap = []
  if rand is None:
    rand = Random()
  while True:
    # Outputs the current selection and gets next item
    (item, weight) = yield selection
    if weight <= 0: continue
    key = rand.random() ** (1.0 / weight)
    if len(selection) < m:
      heap.append((key, len(selection)))
      selection.append(item)
      if len(selection) == m:
        heapify(heap)
    else:
      if key > heap[0][0]:
        index = heap[0][1]
        heapreplace(heap, (key, index))
        selection[index] = item

每次拿到一个新的元素，通过key = rand.random() ** (1.0 / weight)产生一个与其权重有关的随机键值key。当元素个数小于m时，直接将新的元素放入堆空间中（但并不建堆），这样只用O(1)时间；当遇到第m个元素后，堆空间放满了，这时候进行建堆操作（heapify(heap)），需要O(m)时间；之后每拿到一个新的元素，用O(1)时间从堆顶拿出最小值与新元素的键值比较，如果后者更大就用后者替换掉堆顶元素，对堆进行必要的操作（O(log m)时间）以保持其结构（heapreplace(heap, (key, index))）。

关于Python中的堆可以参考：http://docs.python.org/library/heapq.html。

总体来看，整段程序用时O(n * log m)，占用O(m)辅助空间。这样的处理比较适用于m << n的情况。当m与n接近时，可以用n个辅助空间存储所有元素的键值，当遍历结束后用O(n)时间对这n个元素执行快速选择算法，选出m个最大的元素即可，耗时O(n)，辅助空间O(n)。

用同样一组具有等差分布权重的元素调用WeightedRandomSample十万次，得到如下的概率分布，与理论分布非常接近。

用WeightedRandomSample函数随机选取m个元素，第i个元素被选中的概率m=1m=2m=3m=4m=5m=6m=7m=8m=9m=10i=1i=2i=3i=4i=5i=6i=7i=8i=9i=1000.10.20.30.40.50.60.70.80.91i=1● m=1: 0.01824Highcharts.com