如何等概率地从n个数中随机抽出m个数?

题 目:

如何等概率地从n个数中随机抽出m个数?

上题中如果n的大小不确定(可以认为是⼀个数据流),如何做?

 

方法:

蓄水池抽样

具体方法:我们先选取前m个数放入池中,然后我们每次以m/k的概率选择第k(k>m)个数a[k],然后再在蓄水池中随机选取一个元素a[j],交换a[k]和a[j];

 



Init : a reservoir with the size: m  
        for    i= m+1 to N    
            j=random(1, i);    
            if( j < m)    
                 SWAP the jth value and ith value    
       end for   

 


 

 

假设当前是i+1, 按照我们的规定,i+1这个元素被选中的概率是m/(i+1),也即第 i+1 这个元素在蓄水池中出现的概率是m/(i+1) 
此时考虑前i个元素,如果前i个元素出现在蓄水池中的概率都是m/(i+1)的话,说明我们的算法是没有问题的。 

 

证明(归纳法):
m < i <=N 
1.当i=m+1的时候,蓄水池的容量为m,第m+1个元素被选择的概率明显为m/(m+1), 此时前m个元素出现在蓄水池的概率为 m/(m+1), 很明显结论成立。 (因为第m+1个元素被选择的概率为m/(m+1),前m个元素有一个被选择到的概率是1/m,那么前m元素中的任意一个被替换掉的概率是m/(m+1) * 1/m= 1/(m+1),任意一个不被替换的概率是 1- 1/(m+1)=m/(m+1),即前m个元素任意一个还能出现在蓄水池的概率是m/(m+1)。)

 

2.假设当 j=i 的时候结论成立,此时以 m/i 的概率来选择第i个元素,前i-1个元素出现在蓄水池的概率都为m/i。 
证明当j=i+1的情况: 
即需要证明当以 m/(i+1) 的概率来选择第i+1个元素的时候,此时前i个元素任一个出现在蓄水池的概率都为m/(i+1)。 
前i个元素出现在蓄水池的概率有2部分组成, ①在第i+1次选择前得出现在蓄水池中; ②得保证第i+1次选择的时候不被替换掉 
①.由2知道在第i+1次选择前,任一前i个元素出现在蓄水池的概率都为m/i 
②.考虑被替换的概率: 
首先第 i+1 个元素被选中概率为 m/(i+1),其次是因为随机替换的池子中m个元素中任意一个,所以不幸被替换的概率是 1/m,故 前i个元素(池中元素)中任一被替换的概率 = m/(i+1) * 1/m = 1/(i+1),则池中元素没有被替换的概率为: 1 - 1/(i+1) = i/(i+1)
综合① ②,通过乘法规则 ① *②,
得到前i个元素出现在蓄水池的概率为 m/i * i/(i+1) = m/(i+1) 
故证明成立

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值