零基础数据挖掘入门-二手车价格预测

零基础数据挖掘入门-二手车价格预测-task-3建模调参

一、内容介绍

线性回归模型:
线性回归对于特征的要求;
处理长尾分布;
理解线性回归模型;
模型性能验证:
评价函数与目标函数;
交叉验证方法;
留一验证方法;
针对时间序列问题的验证;
绘制学习率曲线;
绘制验证曲线;
嵌入式特征选择:
Lasso回归;
Ridge回归;
决策树;
模型对比:
常用线性模型;
常用非线性模型;
模型调参:
贪心调参方法;
网格调参方法;
贝叶斯调参方法;

二、 模型学习

2.1 线性回归模型
2.2 决策树模型
2.3 GBDT模型
2.4 XGBoost模型
2.5 LightGBM模型

三、理解

同特征工程一样,模型参数调节也是一项非常繁琐但又非常重要的工作。当建模进入到调参阶段,意味着工作也即将进入尾声。通常我们会运用Scikit-Learn来构建传统机器学习模型。根据模型复杂程度的不同,需要调节的参数数量也不尽相同。简单如逻辑回归,需要调节的通常只有正则项系数C;复杂如随机森林,需要调节的变量会多出不少,最核心的如树的数量n_estimators,树的深度max_depth等等。参数越多,调参的难度自然也越来越大,因为参数间排列组合的可能性越来越多。理论上来讲,Scikit-Learn的GridSearch可以帮助我们自动寻找指定范围内的最佳参数组合。但实际情况是,GridSearch通常需要的运行时间过长,长到我们不太能够忍受的程度。总而言之,参数调节需要自己手动先排除掉一部分数值,然后或自己组合,或使用GridSearch来进一步选择最佳组合。
算法的原理一定是我们避无可避的,尤其是在调参的时候。调参的大前提,是我们了解每一个参数分别是做什么的,就好像我们的面前有多个阀门一样,我们需要搞清楚哪个阀门控制哪一项功能才能动手去调节阀门。参数就好像是模型的阀门一样,控制着模型的好坏,以个人经验来讲(以分类问题为例),在不改变其他条件的情况下,调参能提升模型0.01-0.02的AUC分数,如果模型本身分数在0.83左右的话,0.01-0.02的分数提升可以算得上是巨大的提升了。
那么,对算法的原理应该了解到什么程度呢?我以前也被这个问题困扰,现在还是以个人经验来讲,算法的掌握程度≠调参能力。我见过许多同学,在学习算法时可谓是非常认真,把所有的原理,包括优化参数的方法以及优化过程中每一个步骤的推导都掌握的非常清楚,这样固然是极好的,但是往往也容易让我们陷入到过于细节的问题当中无法自拔。当然,如果是岗位需求或是在攻读博士学位的话,这种学习方式是完全没有任何问题的;但是对于大部分的同学来说,远远不需要掌握到如此细致的程度。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值