二元分类问题搭建逻辑回归模型

最新推荐文章于 2024-06-15 09:50:41 发布

weiyi99999

最新推荐文章于 2024-06-15 09:50:41 发布

阅读量3.8k

点赞数 1

分类专栏：数据科学文章标签： Python 数据科学逻辑回归模型二元分类

本文链接：https://blog.csdn.net/weiyi99999/article/details/80564473

版权

1.读取数据——pandas

#利用pandas读取数据
import pandas as pd
data = pd.read_csv(r"H:\Python\data\adult.data")
cols = ['age','education_num','capital_gain','capital_loss','hours_per_week','label']
data = data[cols]
data.head(8)

运行结果：

2.数据转换及可视化——pandas

#利用pandas进行数据转换和可视化，pandas可以将文字型类别变量转换为数字变量
data["label_code"] = pd.Categorical(data.label).codes #在原数据上生成一个变量“label_code”，这个变量只有两个值：0表示“<=50K”,1表示“>50K”
data[["label","label_code"]].head(8)
import matplotlib.pyplot as plt
data[["age","hours_per_week","education_num","label_code"]].hist()
plt.show(block=False)

运行结果：

3.数据的基本统计信息——pandas

#利用DataFrame的describe函数可以得到数据的基本统计信息，如平均值，均方差等。
#默认的describe智慧显示数值型变量的统计信息，如果想要得到全部变量的统计信息，可使用“describe(include='all')”
data.describe()

运行结果：

4.计算交叉报表

#计算education_num,label交叉报表
#pd.crosstab(pd.qcut(data["education_num"],[0,0.25,0.5,0.75,1]))表示将变量“education_num”按分位数划分为4个区间
cross1 = pd.crosstab(pd.qcut(data["education_num"],[0,0.25,0.5,0.75,1]),data["label"])
print(cross1)
#将交叉图标图像化
from statsmodels.graphics.mosaicplot import mosaic
mosaic(cross1.stack())

运行结果：

5.计算交叉报表，并归一化

#计算hours_per_week,label交叉报表

最低0.47元/天解锁文章

weiyi99999

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
二元分类问题搭建逻辑回归模型

1.读取数据——pandas#利用pandas读取数据import pandas as pddata = pd.read_csv(r"H:\Python\data\adult.data")cols = ['age','education_num','capital_gain','capital_loss','hours_per_week','label']data = data[cols]...
复制链接

扫一扫

专栏目录