海量数据随机选取

最新推荐文章于 2021-02-27 22:45:08 发布

Ember_Sky

最新推荐文章于 2021-02-27 22:45:08 发布

阅读量763

点赞数

分类专栏： # 逻辑算法相关文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wzh1378008099/article/details/108202356

版权

逻辑算法相关专栏收录该内容

12 篇文章 0 订阅

订阅专栏

海量数据随机选取

转自更详细的大神博客

问题1：在不知道文件总行数的情况下，如何从文件中随机的抽取一行，并且每行被抽中的概率相等？
问题2：在不知道文件总行数的情况下，如何从文件中随机的抽取 k 行，并且每行被抽中的概率相等？

问题一：抽取一行

在知道文件行数的情况下，直接用 rand 函数就可以
不知道文件行数的时候，我们需要一个概念来使得对每一行取出的概率相等，也即随机。这个概念即蓄水池抽样
解决方案：

直接选取第一行作为我们的最后选择：choice
1/2 的概率，将choice换成第二行
1/3 的概率，将choice换成第三行
。。。
1/i 的概率，将choice换成第 i 行
。。。
1/n 的概率，将choice换成第 n 行

为什么这样可以呢，是有数学方面严格证明的
证明如下：

其实知道每行被选取的概率的公式之后，自己就可以推导

在这里插入图片描述

问题二：抽取 K 行（问题一的扩展）

当理解了问题一，其实问题二就很好理解，可以将 k 行数据看做一个整体
解题思路：

读取第 i 行，以 k/i 概率决定是否要把它换入蓄水池，
如果要换入，换入时随机的选取一个作为替换项（这时候池子里面有 k 项，可以使用 rand 函数）

这样的话，对于任意的 n ，都能保证每个数的选取概率都为 k/n，每个数选取概率相等，即随机。

证明如下：

重点在于每行被选取的概率的公式，理解之后，稍微化简一下就可以推导出来。

在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
海量数据随机选取

海量数据随机选取转自更详细的大神博客问题1：在不知道文件总行数的情况下，如何从文件中随机的抽取一行，并且每行被抽中的概率相等？问题2：在不知道文件总行数的情况下，如何从文件中随机的抽取 k 行，并且每行被抽中的概率相等？问题一：抽取一行在知道文件行数的情况下，直接用 rand 函数就可以不知道文件行数的时候，我们需要一个概念来使得对每一行取出的概率相等，也即随机。这个概念即蓄水池抽样解决方案：直接选取第一行作为我们的最后选择：choice1/2 的概率，将choice换成第二行1/3
复制链接

扫一扫

专栏目录

Ember_Sky CSDN认证博客专家 CSDN认证企业博客

码龄6年

305: 原创

1万+: 周排名

35万+: 总排名

10万+: 访问

: 等级

3717: 积分

1891: 粉丝

129: 获赞

44: 评论

448: 收藏

私信

关注

热门文章

分类专栏

最新评论

在win10的vs2019上安装并编译libevent库
qq_41152099: 楼主，想问下我没有编译，但是其他都是按教程的，最后是报错找不到符号，请问怎么解决
C++ STL容器 —— string 用法详解
沐枫8023: str.rfind(str1,3); //定义: 反向查找 str1 在 str[0]~str[3] 中首次出现的位置 //实际: 反向查找 str1 在 str[0]~str[3+str1.size()-1] 中首次匹配成功的位置【个人猜测】：可能是为了保证源字符串中搜索范围比子串大，防止指定的3位置就是子串的开头
C++ STL容器 —— string 用法详解
王守乐: str.insert(str.end(), 's'); //在位置之前插入字符 's', 返回新元素的第一个位置 //例: str="abc" //运行之后, str="absc" 这部分写错了吧，不是abcs吗？
C++ STL容器 —— string 用法详解
王守乐: 超详细的
在win10的vs2019上安装并编译libevent库
魔法少女Nya: 谢谢大佬咧

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。