数据从 数据分析数据挖掘(三) 去找
一、探索变量的关系
1.事件相互独立的条件:
P(AB)=P(A)P(B)则称为事件A和B相互独立,简称A与B独立。
P(A)P(B)>0,若A与B独立的充分必要条件是P(A|B)=P(A),P(B|A)=P(B)。事件A的发生与B相互无关。
2.导入库导入数据:
import pandas as pd
import numpy as np
import matplotlib as plt
#载入库
from pandas import Series,DataFrame
from scipy import stats
#载入模块
data=pd.read_csv(r'C:\Users\13056\Desktop\tips.csv')
data['tips_pct']=data['tip']/data['total_bill']
#数据导入成功
1.看数字特征,均值,方差,峰度,偏度等
2.分布:模式,异常
有时候我们可以把异常分析成新的模式
我们对两个或更多变量的分析:
找到变量之间的关系
case '没找到':
Nothing more to do
case '有关系':
找有多大关系,有什么样子的关系。
(1)可视化分析:
先写个画图的例子:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#载入库
from pandas import Series,DataFrame
from scipy import stats
#载入模块
data=pd.read_csv(r'C:\Users\13056\Desktop\tips.csv')
data['tips_pct']=data['tip']/data['total_bill']
fig=plt.figure(figsize=(8,6))
#只有这个不能画图
ax=fig.add_subplot(1,1,1)
#表示“1×1网格,第一子图
ax.plot(np.random.rand(50).cumsum(),'.')
#cumsum(),是累加的为了画图好看,随机50个点
ax.plot(np.random.rand(50).cumsum(),'o')
图:
画图补充:
fig,ax=plt.subplots(2,1,figsize=(8,6))
#这样就会有2行每行1个8×6大小的子图。
开始可视化咱们需要处理的数据:(探究女性给的小费和男性给的小费的关系)
fig,ax=plt.subplots(1,1,figsize=(8,6))
#这样就会1行每行1个8×6大小的子图。
ax.plot(data[data['sex']=='Male']['tip'],'o',label=