一:探索性数据分析基础知识(多因子与复合检验)
1.假设检验
原假设一般符合分布,备择假设一般为不符合分布
注:采用了双边检验
2.卡方检验,T分布检验,F分布检验
3.方差检验
检验电池寿命是否和编号有关
SST(总变差平方和):每个数据减去所有数据的均值的平方和
SSM(平均平方和):每个组的均值减去总体均值的平方和
SSE(残差平方和、组内平方和):每个数据减去所属的组的平方和
检验不同组电池寿命是否相关
4.相关系数(看两组系数是否相关)
5.线性回归
好的数据DW值 为2
6.主成分分析
例如:A变量差别不大,为次要成分,B变量差别较大,为主要成分
最重要的作用就是降维
7.主成分分析
二:探索性数据分析代码实践
1.正态检验与卡方检验
import numpy as np
import scipy.stats as ss
norm_dist = ss.norm.rvs(size=50)
print(ss.normaltest(norm_dist))
# 对以上数列进行正态检验
print(ss.chi2_contingency([[15, 95], [85, 5]]))
#对以上数列进行卡方检验 其中:126为实际值,2.95为理论值,1为自由度,后面的矩阵为理论分布
NormaltestResult(statistic=0.94344737536406531, pvalue=0.62392588751026157)
(126.08080808080808, 2.9521414005078985e-29, 1, array([[ 55., 55.],
[ 45., 45.]]))
2.