二元分类问题搭建逻辑回归模型

1.读取数据——pandas

#利用pandas读取数据
import pandas as pd
data = pd.read_csv(r"H:\Python\data\adult.data")
cols = ['age','education_num','capital_gain','capital_loss','hours_per_week','label']
data = data[cols]
data.head(8)

运行结果:


2.数据转换及可视化——pandas

#利用pandas进行数据转换和可视化,pandas可以将文字型类别变量转换为数字变量
data["label_code"] = pd.Categorical(data.label).codes #在原数据上生成一个变量“label_code”,这个变量只有两个值:0表示“<=50K”,1表示“>50K”
data[["label","label_code"]].head(8)
import matplotlib.pyplot as plt
data[["age","hours_per_week","education_num","label_code"]].hist()
plt.show(block=False)

运行结果:


3.数据的基本统计信息——pandas

#利用DataFrame的describe函数可以得到数据的基本统计信息,如平均值,均方差等。
#默认的describe智慧显示数值型变量的统计信息,如果想要得到全部变量的统计信息,可使用“describe(include='all')”
data.describe()

运行结果:


4.计算交叉报表

#计算education_num,label交叉报表
#pd.crosstab(pd.qcut(data["education_num"],[0,0.25,0.5,0.75,1]))表示将变量“education_num”按分位数划分为4个区间
cross1 = pd.crosstab(pd.qcut(data["education_num"],[0,0.25,0.5,0.75,1]),data["label"])
print(cross1)
#将交叉图标图像化
from statsmodels.graphics.mosaicplot import mosaic
mosaic(cross1.stack())

运行结果:


5.计算交叉报表,并归一化

#计算hours_per_week,label交叉报表
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值