Datawhale数据分析-建模与评估

建模与评估一级目录二级目录三级目录模型建立1. 清洗数据2. 选择模型3. 分割数据集4. 模型创建5. 输出预测结果评估1. 目的2. 交叉验证3. 评价数据对于一些思考问题的想法1. 清洗前后数据的不同:2. 数据集哪些差异会导致模型在拟合数据是发生变化3. 什么情况下切割数据集的时候不用进行随机选取4. 为什么线性模型可以进行分类任务,背后是怎么的数学关系5. 对于多分类问题,线性模型是怎么进行分类的6. 预测标签的概率对我们有什么帮助一级目录二级目录三级目录模型建立1. 清洗数据由于最初
摘要由CSDN通过智能技术生成

一级目录

二级目录

三级目录

模型建立

1. 清洗数据

由于最初获得的数据通常是不‘干净’的,不能直接用于模型的训练。需要对数据增删查补和可视化来进行数据清洗,从而得到对最终结果有影响的完整特征数据集。这些就是前两次任务涉及的内容。

2. 选择模型

对于我现在熟悉的几个模型来说:
线性回归:特征少,数据集也不大的连续性预测类问题
逻辑回归/SVM:特征少,数量集也不大的分类问题
神经网络: 特征多,数量集中等偏上的分类问题

在这里插入图片描述

3. 分割数据集

#random_state: 设置随机种子以便于后续结果复现
# test_size :测试集比例
# stratify 分层抽样 样本的代表性比较好,抽样误差比较小
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3,stratify=y, random_state=2020)

4. 模型创建

# 读入模型库
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
#逻辑回归模型
# C: 正则化参数λ的倒数; 效果和SVM中的参数C一样 C越小正则化效果越强 越针对过拟合
clf_lg1 = LogisticRegression(C = 10)
clf_lg1 = clf_lg.fit(X_train, y_train)

# 修改参数的随机森林分类模型
# n_estimators:The number of trees in the forest
# min_samples_leaf: The minimum number of samples required to be at a leaf node.
# max_depth: The max
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值