一、前言
这是课程的第二章节——抽样算法,主要分为三类。
详情可参考: 数据科学的算法基础——学习记录跳转中心
二、正篇
1.系统抽样
课本只介绍了最简单的——等距抽样。
直线等距抽样(N=n*k):即总体个数可以被抽样个数整除时,每隔k个取一个样本,第一个可能给出,可能随机。
圆形等距抽样(N!=n*k):依旧,只不过成了圆,超出范围了接着从头取。
2.分层抽样
高中知识,按比例分层,之后按照简单随机或系统抽样在每一层抽取相应个数。
3. 水库抽样
总体容量未知,数据流无限,以例子讲解如何做,不再证明,感兴趣自行搜索。
简述给定一个数据流,如何均匀地从中随机抽取1000条记录?
三、例题
1.直线等距
用系统抽样法从160个灯泡中抽取一个容量为20的样本。将这160个灯泡编号为1~160,若第16个被抽中的个体编号为126,则起始编号为( 6 )
2.圆形等距
设总体有14个个体,按照1~14进行编号。欲以系统抽样法抽取容量为n=4的样本,且第一个抽中的样本编号为4,则最后一个样本编号为( 2 )
四、总结
三种方法共同点:抽样时每个个体被抽取到的可能性相等,但各有特点。
————跳转下一章节:抽样算法