统计学基础（一）—样本与总体

Arvin Ou

已于 2022-04-10 15:23:17 修改

阅读量3k

点赞数 3

分类专栏：统计学基础文章标签：数据分析大数据概率论

于 2020-03-08 17:31:51 首次发布

本文链接：https://blog.csdn.net/weixin_44027006/article/details/104732318

版权

统计学基础专栏收录该内容

5 篇文章 3 订阅

订阅专栏

样本与总体

1 什么是样本？

样本是用来估计总体的
样本应与总体的情况相似（比如，利用埃菲尔铁塔的模型去研究真正的埃菲尔铁塔的结构。那么这个样本应该在结构上，比例上与原来的母体相似（总体 population）
样本应该是概率样本，也就是说是随机抽样的，每个样本被抽入的概率应该是等可能的。
样本的情况叫做样本的统计值

2 什么是变量？

变量是指因人而异的变
分析变量的目的是探索日新月异的变化

3 量化是一个系统工程

抽样、根据目的来确定某些个体的哪些属性、测量工具应是有效、可靠的（Vaild and Values，比如性别，年龄）
量化的实施过程：调查工具（问卷）的设计、调查工具的测试与调试、调查工具的操作、数据编码（清理）、数据处理（重新编码、取平方等）
量化研究是实验的代用品
代用品是否可靠取决于量化的水平

4 数据分析

4.1 单变项分析（由点到线）：

正态分布：看标准差（坡度 slope）和期望（均值 Mean）
平方和（计算用平均值计算的总误差，因为可能直接计算出来的误差有正有负，所以采用平方和来计算误差）：用每一个人测得的实际值减去求得的平均值的平方，再求和。
方差（方差越小越稳定）：因为当样本量巨大的时候，所求得的平方和是也可能会是巨大的，因此难以反映母体的情况。所有要将平方和去除以案例数。
标准差（离标准情况的差距）：比如我想要超越其他人，我要达到全球的前1%，那么我要计算我比平均值高几个标准差。越往后，一个标准差拜托的人越多。
抽样分布：
1）从一个总体里简单随机抽取M组样本，每组样本为N个人，对每一组N个人求平均值，然后观察M组样本均值的分布，可以发现是服从正态分布的。
2）标准误：抽样分布当中的标准差就叫标准误。因为我们是在研究样本统计值的分布，而样本统计值与总体分布总是存在误差的，所以每个样本统计值的分布其实是误差的分布，误差的分布的标准差就是标准的误差。

4.2 双变项分析：由线到面

相关性分析：
1）不相关：两条平行线
2）正相关是水涨船高，负相关是此消彼长
3）曲线相关：U型触底反弹（考研和激动程度的关系：考研初期很激动，到中期激动的程度越来越小，到后期又开始激动）；倒U型（年龄和体力的关系：年幼时体力很差，到28左右体力达到峰值，然后逐渐又开始下降）
显著性检验（当检测出两个因素相关，然后要看到底是为什么相关，是随机的相关还是背后有必然性的关系）：
1、显著：显著不是重要（Sign(信号：表达一种意思，指某些事)、Signify、Significant、Significance)。显著就是某个联系背后是不是意味着什么东西。
2、显著度检验的六步：
1）研究假设 H1 （希望证实的对于总体假设）
2）零假设 H0 （希望抛弃的那个对于总体的假设）
3）根据变量类型选择检验方法
4）决定愿意承担多大的犯一类错误的风险
5）根据样本计算犯一类错误的风险
6）参照第4-5步决定是否放弃零假设
注：I类风险（可计算）：（弃真）放弃了一个真的零假设；II类风险：（纳伪）接受了一个假的零假设。
解释：假设我们要研究工资会不会随着年龄的增加而升高。我们的零假设是工资不会随着年龄的升高而升高。此时再次假设总体中有一组样本它是接受零假设的，并且抽到这组样本的概率是0.001%。接下来我们要从总体中抽一组样本。假设我们刚好抽到了接受零假设的那一组样本，同时我们不知道抽到这组的概率是多少。此时我们需要计算犯I类错误的风险。也就是说我们弃真的概率有多大。比如计算得出犯I类错误的概率为4%，那么如果我们的研究可以承担5%犯I类风险的错误，那么我们可以选择继续抛弃零假设，但是此时我们的研究就有一定的错误的可能性。但是这是没有办法的，不可能做到100%真。
回归分析：是预设因果关系的相关分析
1）正态分布时平均值是最准的猜测
2）回归分析是根据自变量更准地猜因变量
3）最小二乘回归（最小平方和，拟合度最高：比如我给你一件衣服来猜我的身高，你会先问问这件衣服合不合身，再去估计）就是把猜测准确度最大化。
4）回归分析的显著性检验与法庭审判类似

注：回归分析结果分析：B是指未标准化的回归系数（单位是一样的，不意味着任何事）。t值是指如果零假设是真的，那么你要移动多少个标准差可以到达那个零假设。下图可以看到，t值=B/Std_Error约为19.115。也就是说如果零假设是真的那么，要走19.115个标准差才可以到那个可能，也就是抽到一组样本满足零假设的概率非常非常的小。这个时候就要看你能够承担多少犯I类风险的错误。
在这里插入图片描述
斜率计算公式：

6、最小二乘线性回归系数公式：根据这条线去推测总体的误差是最小的。

7、ANOVA表告诉了我们减少了多少误差：
相较于原来13791092.340的误差减少了601个亿

8：R Square:误差减少了43.6%。就好比我们这件衣服把测量的误差挡掉了43.6%。
在这里插入图片描述

Arvin Ou

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
统计学基础（一）—样本与总体

样本与总体样本：样本是用来估计总体的样本应与总体的情况相似（比如，利用埃菲尔铁塔的模型去研究真正的埃菲尔铁塔的结构。那么这个样本应该在结构上，比例上与原来的母体相似（总体 population）样本应该是概率样本，也就是说是随机抽样的，每个样本被抽入的概率应该是等可能的。样本的情况叫做样本的统计值变量变量是指因人而异的变分析变量的目的是探索日新月异的变化量化是一个系统工程...
复制链接

扫一扫

专栏目录