文章目录
描述性统计分析
描述性统计所提取的统计信息,我们成为统计量,其内容包括以下几方面:
- 频数与频率
- 频数:数据中类别变量每个不同取值出现的次数
- 频率:每个类别变量的频数与总次数比值,通常百分比表示.
- 集中趋势分析
- 均值:即平均值,其为一组数据的总和除以数据的个数
- 中位数 :将一组数据升序排列,位于该组数据中间位置的值,就是中位数.如果数据个数为偶数,则取中间两个数值的均值
- 众数:一组数据中出现次数最多的值
- 分位数
- 离散程度分析
- 极差:指一组数据中,最大值与最小值之差
- 方差:体现一组数据中,每个元素与均值偏离的大小
- 标准差:为方差的开方
- 三者关系:
- 方差(标准差) 可以体现数据分散性,方差(标准差)越大,数据越分散,方差(标准差)越小,数据越集中
- 方差(标准差)可以体现数据的波动性(稳定性),方差(标准差)越大,数据波动越大,方差(标准差)越小,数据波动性越小
- 当数据较大时,可以用n代替n-1
- 分布形状
- 偏度
- 峰度
变量分类:
- 类别变量
- 无序类别变量(名义变量)
- 有序类别变量(等级变量)
- 数值变量
- 连续变量
- 离散变量
分位数
- 1/4分位
Q1_index=1+(n-1)*0.25
- 2/4分位
Q2_index=1+(n-1)*0.50
- 3/4分位
Q3_index=1+(n-1)*0.75
- 其中,index从1开始,n位元素个数
点估计与区间估计
点估计:
就是使用样本的统计量去代替总体参数. 例如要求鸢尾花平均花瓣长度,可用样本的均值来估计总体的均值
区间估计:
区间估计根据样本统计量,计算出一个可能的区间与概率(信心指数值) , 表示总体的参数会有多少概率位于该区间中.我们称为置信区间,而区间估计指定的概率,我们称为*置信度**. 例如鸢尾花花瓣长度有70%可能在3.4cm-3.8cm之间,那3.4-3.8cm就是置信区间,而70%就是置信度.
区别:
点估计用一个值来代替总体参数值,而区间估计是使用一个置信区间与置信度,表示总体参数有多少可能(置信度)会在该范围(置信区间)内.
中心极限定理:
中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值围绕在总体均值左右,接近正态分布; 当样本量足够大时,样本均值服从正态分布.
- 样本均值构成的正态分布,其均值等于总体均值μ
- 样本均值构成的正态分布,其标准差等于总体标准差σ除以 n \sqrt{n} n .
- 样本均值分布的标准差,我们称为 标准误差,简称标准误.
正态分布
- ±1 σ包含68%
- ±2 σ包含95%
- ±3 σ包含99.7%
检验
假设检验
Z检验
T检验
回归分析
回归分析_百度百科
回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
线性回归-直的
- 拟合:构建一种算法,使该算法能够符合真实数据
- y = w ∗ x + b y=w*x+b y=w∗x+b
多元线性回归
- y = w ∗ x + b + w ∗ x + . . . + + w ∗ x + b y=w*x+b+w*x+...++w*x+b y=w∗x+b+w∗x+...++w∗x+b
线性回归模型评估
当我们建立好模型后,模型效果如何?我们可以用如下指标评价衡量
-
M S E MSE MSE (mean squared error)
-
R M S E RMSE RMSE (root mean squared error)
-
M A E MAE MAE (mean absolute error)
-
R 2 R^2 R2