python数据挖掘系列(二)

一:探索性数据分析基础知识(多因子与复合检验)

1.假设检验

原假设一般符合分布,备择假设一般为不符合分布 

注:采用了双边检验

2.卡方检验,T分布检验,F分布检验

 3.方差检验

检验电池寿命是否和编号有关

 

 SST(总变差平方和):每个数据减去所有数据的均值的平方和

SSM(平均平方和):每个组的均值减去总体均值的平方和

SSE(残差平方和、组内平方和):每个数据减去所属的组的平方和

检验不同组电池寿命是否相关

 4.相关系数(看两组系数是否相关)

 5.线性回归

 

 

     好的数据DW值 为2

6.主成分分析

 例如:A变量差别不大,为次要成分,B变量差别较大,为主要成分

 最重要的作用就是降维

 7.主成分分析

二:探索性数据分析代码实践

1.正态检验与卡方检验

import numpy as np
import scipy.stats as ss

norm_dist = ss.norm.rvs(size=50)
print(ss.normaltest(norm_dist))
# 对以上数列进行正态检验

print(ss.chi2_contingency([[15, 95], [85, 5]]))
#对以上数列进行卡方检验 其中:126为实际值,2.95为理论值,1为自由度,后面的矩阵为理论分布
NormaltestResult(statistic=0.94344737536406531, pvalue=0.62392588751026157)
(126.08080808080808, 2.9521414005078985e-29, 1, array([[ 55.,  55.],
       [ 45.,  45.]]))

2.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值