基于 Python 的 8 种常用抽样方法

Python_魔力猿

于 2023-11-04 09:34:30 发布

阅读量540

点赞数 1

文章标签： python 机器学习开发语言

本文链接：https://blog.csdn.net/weixin_68789096/article/details/134214605

版权

本文介绍了Python在统计学和机器学习中常见的8种抽样方法，包括随机抽样、分层抽样、聚类抽样、系统抽样、多级采样等概率抽样技术，以及简单采样、自愿抽样和雪球抽样等非概率抽样技术。抽样是数据分析的重要环节，合理选择抽样方法对模型效果至关重要。

摘要由CSDN通过智能技术生成

抽样是统计学、机器学习中非常重要，也是经常用到的方法，因为大多时候使用全量数据是不现实的，或者根本无法取到。所以我们需要抽样，比如在推断性统计中，我们会经常通过采样的样本数据来推断估计总体的样本。

上面所说的都是以概率为基础的，实际上还有一类非概率的抽样方法，因此总体上归纳为两大种类：

这也是最简单暴力的一种抽样了，就是直接随机抽取，不考虑任何因素，完全看概率。并且在随机抽样下，总体中的每条样本被选中的概率相等。

比如，现有10000条样本，且各自有序号对应的，假如抽样数量为1000，那我就直接从1-10000的数字中随机抽取1000个，被选中序号所对应的样本就被选出来了。

在Python中，我们可以用random函数随机生成数字。下面就是从100个人中随机选出5个。

import random  
population = 100  
data = range(population)  
print(random.sample(data,5))  
> 4, 19, 82, 45, 41

分层抽样其实也是随机抽取，不过要加上一个前提条件了。在分层抽样下，会根据一些共同属性将带抽样样本分组，然后从这些分组中单独再随机抽样。

因此，可以说分层抽样是更精细化的随机抽样，它要保持与总体群体中相同的比例。 比如，机器学习分类标签中的类标签0和1，比例为3:7，为保持原有比例，那就可以分层抽样，按照每个分组单独随机抽样。

Python中我们通过train_test_split设置stratify参数即可完成分层操作。

from sklearn.model_selection import train_test_split  
  
stratified_sample, _ = train_test_split(p

关注