数据流挖掘_数据流抽样

最新推荐文章于 2022-04-25 18:54:28 发布

yangyiming1234

最新推荐文章于 2022-04-25 18:54:28 发布

阅读量857

点赞数 2

分类专栏：数据流挖掘文章标签：数据流抽样

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangyiming1234/article/details/45337937

版权

数据流挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

如果流数据规模超出处理能力的限制，我们需要对数据进行采样，只对数据的部分做处理。这时候我们需要保证：从流中抽取的样本子集，对它进行查询能够在统计性上代表整个流。只有这样采样才有意义，代表整体流的分布。

首先讲蓄水池采样。在未知大小的数据流中，我们如何从中选择k个元素，而且保证随机性（每个元素被选到的概率相等）。该算法保存一个大小为k的数组（或者理解成一个窗口、集合都行）来存放选中的元素。对于第i个元素的处理如下：如果i<=k，则直接将该元素放入到数组中。如果i>k，则k/i的概率将该元素替换集合中的某一个元素。如果确定数组中到底哪个元素被替换，可以使用产生一个[ 1 , k ]的随机数m，替换第m个元素。该方法合理性可以通过数学归纳法进行证明。

之后

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据流挖掘_数据流抽样

如果流数据规模超出处理能力的限制，我们需要对数据进行采样，只对数据的部分做处理。这时候我们需要保证：从流中抽取的样本子集，对它进行查询能够在统计性上代表整个流。只有这样采样才有意义，代表整体流的分布。首先讲蓄水池采样。在未知大小的数据流中，我们如何从中选择k个元素，而且保证随机性（每个元素被选到的概率均为 k / N）。该算法保存一个大小为k的集合。对于第i个元素的处理如下：如果ik，则k/i
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。