数据分析数据挖掘(五)

本文探讨了在数据分析和数据挖掘中如何探索变量间的关系,包括事件的独立性条件、数据的可视化分析、独立性检验。通过实例展示了性别与消费水平、星期几与客流量之间的关系,并介绍了相关系数如Pearson、Spearman和Kendall’s Tau。此外,文章还讲解了t检验和ANOVA方差分析在数值型与类别型变量关系分析中的应用,强调了方差分析的前提假设和检验过程。
摘要由CSDN通过智能技术生成

数据从 数据分析数据挖掘(三) 去找
一、探索变量的关系
1.事件相互独立的条件:
P(AB)=P(A)P(B)则称为事件A和B相互独立,简称A与B独立。
P(A)P(B)>0,若A与B独立的充分必要条件是P(A|B)=P(A),P(B|A)=P(B)。事件A的发生与B相互无关。

2.导入库导入数据:

import pandas as pd
import numpy as np
import matplotlib as plt
#载入库
from pandas import Series,DataFrame
from scipy import stats
#载入模块
data=pd.read_csv(r'C:\Users\13056\Desktop\tips.csv')
data['tips_pct']=data['tip']/data['total_bill']
#数据导入成功
1.看数字特征,均值,方差,峰度,偏度等
2.分布:模式,异常
有时候我们可以把异常分析成新的模式


我们对两个或更多变量的分析:
找到变量之间的关系
case '没找到':
    Nothing more to do
case '有关系':
    找有多大关系,有什么样子的关系。
    

(1)可视化分析:
先写个画图的例子:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#载入库
from pandas import Series,DataFrame
from scipy import stats
#载入模块
data=pd.read_csv(r'C:\Users\13056\Desktop\tips.csv')
data['tips_pct']=data['tip']/data['total_bill']
fig=plt.figure(figsize=(8,6))
#只有这个不能画图
ax=fig.add_subplot(1,1,1)
#表示“1×1网格,第一子图
ax.plot(np.random.rand(50).cumsum(),'.')
#cumsum(),是累加的为了画图好看,随机50个点
ax.plot(np.random.rand(50).cumsum(),'o')

图:
在这里插入图片描述
画图补充:

fig,ax=plt.subplots(2,1,figsize=(8,6))
#这样就会有2行每行1个8×6大小的子图。

在这里插入图片描述

开始可视化咱们需要处理的数据:(探究女性给的小费和男性给的小费的关系)

fig,ax=plt.subplots(1,1,figsize=(8,6))
#这样就会1行每行1个8×6大小的子图。
ax.plot(data[data['sex']=='Male']['tip'],'o',label=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值