数据分析数据挖掘（五）

最新推荐文章于 2020-12-24 12:01:37 发布

南巷旧梦

最新推荐文章于 2020-12-24 12:01:37 发布

阅读量616

点赞数 1

分类专栏：人工智能文章标签：机器学习 python 数据分析数据挖掘

本文链接：https://blog.csdn.net/weixin_45743162/article/details/104719661

版权

本文探讨了在数据分析和数据挖掘中如何探索变量间的关系，包括事件的独立性条件、数据的可视化分析、独立性检验。通过实例展示了性别与消费水平、星期几与客流量之间的关系，并介绍了相关系数如Pearson、Spearman和Kendall’s Tau。此外，文章还讲解了t检验和ANOVA方差分析在数值型与类别型变量关系分析中的应用，强调了方差分析的前提假设和检验过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据从数据分析数据挖掘（三）去找
一、探索变量的关系
1.事件相互独立的条件：
P(AB)=P(A)P(B)则称为事件A和B相互独立，简称A与B独立。
P(A)P(B)>0，若A与B独立的充分必要条件是P(A|B)=P(A),P(B|A)=P(B)。事件A的发生与B相互无关。

2.导入库导入数据：

import pandas as pd
import numpy as np
import matplotlib as plt
#载入库
from pandas import Series,DataFrame
from scipy import stats
#载入模块
data=pd.read_csv(r'C:\Users\13056\Desktop\tips.csv')
data['tips_pct']=data['tip']/data['total_bill']
#数据导入成功
1.看数字特征，均值，方差，峰度，偏度等
2.分布：模式，异常
有时候我们可以把异常分析成新的模式


我们对两个或更多变量的分析：
找到变量之间的关系
case '没找到':
    Nothing more to do
case '有关系':
    找有多大关系，有什么样子的关系。

（1）可视化分析：
先写个画图的例子：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#载入库
from pandas import Series,DataFrame
from scipy import stats
#载入模块
data=pd.read_csv(r'C:\Users\13056\Desktop\tips.csv')
data['tips_pct']=data['tip']/data['total_bill']
fig=plt.figure(figsize=(8,6))
#只有这个不能画图
ax=fig.add_subplot(1,1,1)
#表示“1×1网格，第一子图
ax.plot(np.random.rand(50).cumsum(),'.')
#cumsum()，是累加的为了画图好看，随机50个点
ax.plot(np.random.rand(50).cumsum(),'o')

图：
在这里插入图片描述
画图补充：

fig,ax=plt.subplots(2,1,figsize=(8,6))
#这样就会有2行每行1个8×6大小的子图。

在这里插入图片描述

开始可视化咱们需要处理的数据：（探究女性给的小费和男性给的小费的关系）

fig,ax=plt.subplots(1,1,figsize=(8,6))
#这样就会1行每行1个8×6大小的子图。
ax.plot(data[data['sex']=='Male']['tip'],'o',label=

最低0.47元/天解锁文章