统计
文章平均质量分 53
goldendata
这个作者很懒,什么都没留下…
展开
-
什么是bootstrap?
Bootstrap又称自展法,是用小样本估计总体值的一种非参数方法,在进化和生态学研究中应用十分广泛。例如进化树分化节点的自展支持率等。Bootstrap的思想,是生成一系列bootstrap伪样本,每个样本是初始数据有放回抽样。通过对伪样本的计算,获得统计量的分布。例如,要进行1000次bootstrap,求平均值的置信区间,可以对每个伪样本计算平均值。这样就获得了1000个平均值。对着转载 2013-10-08 16:15:33 · 1467 阅读 · 0 评论 -
缺失值处理
缺失值是指在数据采集与整理过程中丢失的内容。一般情况下,数据都是以关系型表的方式采集的,如下表是某次调查中一些受访者的基本情况见本文最后的表格。 如果在表格中,某一个数据采集时无法获得,就会出现缺失值,例如在上表中“张三”的性别和“赵六”的年龄就出现了缺失。缺失值的处理一般有两种方式,一是删除对应的记录,例如在上例中,如果张三的性别没有记录,出现缺失,则将张三的所有信息全部原创 2013-09-23 09:38:53 · 2204 阅读 · 0 评论 -
异常值侦查
Spss中异常值检查方法:检查异常值方法1: 最常用的方法就是对变量进行排序,这也是最简单的方法。排序后对照最大值和最小值、全距等统计量可以看出数据的离群状况。检查异常值方法2: 散点图的优势就在于直观的呈现两两变量间的关系,尤其在两变量间的线性关联比较强的时候,如果有离群值,图形侦察的结果会很明显,不过(也包括矩阵散点等图形)其局限在于,其本质还是变量转载 2013-09-23 09:54:48 · 1688 阅读 · 0 评论 -
异常值处理的常用方法
(1)直接将该条观测删除在SPSS软件里有2种不同的删除方法,整条删除和成对删除。当然,这种方法简单易行,但缺点也很明显,首先我们经常会遇到的情况是观测值很少,这种删除会造成样本量不足,其次,直接删除的观测很多,也可能会改变变量的原有分布,从而造成统计模型不够稳定。 (2)暂且保留,待结合整体模型综合分析 通常我们观测到的异常值,有时在对于整个模型而言,其转载 2013-09-23 09:59:08 · 20894 阅读 · 0 评论 -
Holdout 验证
常识来说,Holdout 验证并非一种交叉验证,因为数据并没有交叉使用。 随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。 一般来说,少于原本样本三分之一的数据被选做验证数据。更多请见:交叉验证转载 2013-10-16 10:03:10 · 8667 阅读 · 0 评论 -
主成分分析和因子分析十大不同点
主成分分析和因子分析无论从算法上还是应用上都有着比较相似之处,本文结合以往资料以及自己的理解总结了以下十大不同之处,适合初学者学习之用。1.原理不同主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主转载 2013-11-29 20:31:53 · 2958 阅读 · 0 评论