Datawhale数据分析-建模与评估

最新推荐文章于 2023-02-16 01:20:53 发布

肉bot

最新推荐文章于 2023-02-16 01:20:53 发布

阅读量954

点赞数

分类专栏：机器学习 Pandas 文章标签：机器学习 python

本文链接：https://blog.csdn.net/weixin_46723764/article/details/108268043

版权

本文介绍了数据清洗的重要性，包括数据增删查补和可视化，以及模型建立的流程，如选择模型、分割数据集、模型创建和预测结果输出。在评估环节，探讨了模型评估的目的、交叉验证的概念以及准确率、召回率等评价指标。此外，文章还讨论了ROC曲线在评估中的作用，以及模型预测概率在决策中的价值。

摘要由CSDN通过智能技术生成

一级目录

二级目录

三级目录

模型建立

1. 清洗数据

由于最初获得的数据通常是不‘干净’的，不能直接用于模型的训练。需要对数据增删查补和可视化来进行数据清洗，从而得到对最终结果有影响的完整特征数据集。这些就是前两次任务涉及的内容。

2. 选择模型

对于我现在熟悉的几个模型来说：
线性回归：特征少，数据集也不大的连续性预测类问题
逻辑回归/SVM：特征少，数量集也不大的分类问题
神经网络: 特征多，数量集中等偏上的分类问题

在这里插入图片描述

3. 分割数据集

#random_state: 设置随机种子以便于后续结果复现
# test_size ：测试集比例
# stratify 分层抽样 样本的代表性比较好，抽样误差比较小
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3,stratify=y, random_state=2020)

4. 模型创建

# 读入模型库
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
#逻辑回归模型
# C: 正则化参数λ的倒数; 效果和SVM中的参数C一样 C越小正则化效果越强 越针对过拟合
clf_lg1 = LogisticRegression(C = 10)
clf_lg1 = clf_lg.fit(X_train, y_train)

# 修改参数的随机森林分类模型
# n_estimators：The number of trees in the forest
# min_samples_leaf: The minimum number of samples required to be at a leaf node.
# max_depth: The maximum