Python数据分析之探索性分析（多因子复合分析）

啊心个。

已于 2022-09-19 14:41:25 修改

阅读量1.5k

点赞数

分类专栏：笔记文章标签： python jupyter 数据挖掘数据分析

于 2022-09-19 14:40:33 首次发布

本文链接：https://blog.csdn.net/weixin_45085051/article/details/126878625

版权

笔记专栏收录该内容

6 篇文章 1 订阅

订阅专栏

2、熵；条件熵；互信息（熵增益）；增益率；基尼系数；

一、假设检验：

import numpy as np
import pandas as pd
import scipy.stats as ss
import seaborn as sns
import matplotlib.pyplot as plt
norm_dist=ss.norm.rvs(size=20)
#检测是不是正态分布
ss.normaltest(norm_dist)   #基于偏度峰度的检验方法

ss.chi2_contingency([[15,95],[85,5]])   #卡方检验

#独立分布t检验
ss.ttest_ind(ss.norm.rvs(size=10),ss.norm.rvs(size=20))
ss.ttest_ind(ss.norm.rvs(size=100),ss.norm.rvs(size=200))

#方差分析（三因素）
ss.f_oneway([49,50,39,40,43],[28,32,30,26,34],[38,40,45,42,48])

结果：（返回对应的检验统计量取值及P值）

正态检验：
NormaltestResult(statistic=1.863200226764262, pvalue=0.39392288453069607)
卡方检验：（检验统计量；P值；自由度；预期频率，基于表格的边际总和）
(126.08080808080808,
 2.9521414005078985e-29,
 1,
 array([[55., 55.],
        [45., 45.]]))
独立t分布检验：
Ttest_indResult(statistic=0.37682239455779953, pvalue=0.7091463437965357)
Ttest_indResult(statistic=1.1521645881654703, pvalue=0.25017689990448144)
方差检验：
F_onewayResult(statistic=17.619417475728156, pvalue=0.0002687153079821641)

#QQ图
from statsmodels.graphics.api import qqplot
from matplotlib import pyplot as plt
plt.show(qqplot(ss.norm.rvs(size=100)))

QQ图——1.检验一列数据是否符合正态分布；2.检验两列数据是否符合同一分布

如何分析QQ图？

1.1 Q-Q散点图是沿着y=x分布时, 符合标准正态分布
1.2 Q-Q散点图沿y=ax+b分布时, 符合正态分布, 但非标准正态分布

二、交叉分析

1、分析属性与属性之间关系的方法

###交叉分析1——分析属性与属性之间关系的方法
df=pd.read_csv("D:/Users/DXX/Desktop/dxx.code/Python学习/HR_comma_sep.csv")
df=df.dropna(axis=0,how="any")  #axis=0—行；how=“any”有一个空值删除；“all”全为空删除
df=df[df["last_evaluation"]<=1][df["salary"]!="nme"]

dp_indices=df.groupby(by="department").indices   #department中各个属性的位置
sales_values=df["left"].iloc[dp_indices["sales"]].values  #索引sales属性位置在left变量下的值
technical_values=df["left"].iloc[dp_indices["technical"]].values #索引technical属性位置在left变量下的值

##ttest_ind——对 2 个独立样本具有相同平均(预期)值的零假设的检验
ss.ttest_ind(sales_values,technical_values)
dp_keys=list(dp_indices.keys())
print(dp_keys)
dp_t_mat=np.zeros([len(dp_keys),len(dp_keys)])
for i in range(len(dp_keys)):
    for j in range(len(dp_keys)):
        p_value=ss.ttest_ind(df["left"].iloc[dp_indices[dp_keys[i]]].values,\
                             df["left"].iloc[dp_indices[dp_keys[j]]].values)[1]
        dp_t_mat[i][j]=p_value

sns.heatmap(dp_t_mat,xticklabels=dp_keys,yticklabels=dp_keys)   #热力图
plt.show()

ttest_ind()——对 2 个独立样本具有相同平均(预期)值的零假设的检验；

循环每两组属性进行独立t分布检验，将检验结果的P值绘成热力图，如下：

结果分析：P值大于给定显著性水平时，说明 2 个独立样本具有相同平均(预期)值的零假设成立。

2、透视表

#交叉分析2——透视表
piv_tb=pd.pivot_table(df,values="left",index=["promotion_last_5years","salary"],\
                      columns=["Work_accident"],aggfunc=np.mean)    #聚合函数aggfunc
piv_tb

#热力图
sns.set_context(font_scale=1.5)
sns.heatmap(piv_tb,vmin=0,vmax=1,cmap=sns.color_palette("Greens",n_colors=256))   
plt.show()

pivot_table()——透视表是一种可以对数据动态排布并且分类汇总的表格格式。

其中，aggfunc参数可以设置我们对数据聚合时进行的函数操作，默认为均值运算。

热力图可视化：

三、分组与钻取：

钻取是改变维的层次，变换分析的粒度——向上钻取；向下钻取

分隔（一阶差分）
拐点（二阶差分）
聚类方法分组
不纯度（Gini——基尼系数）

#分组与钻取
sns.barplot(x="salary",y="left",hue="department",data=df)  #hue向下钻取
plt.show()

向下钻取：分析部门之间在不同薪资水平下的离职率。

###连续属性数据离散化后才能分组
sl_s=df["satisfaction_level"]
sns.barplot(list(range(len(sl_s))),sl_s.sort_values())

连续属性数据离散化后才能分组，可根据拐点来进行分组。