Task04 模型建立

DataWhale组队学习打卡第四阶段内容

本学习笔记为Datawhale开源学习训练营21年4月数据挖掘学习的学习内容,学习链接为:团队学习数据挖掘/智慧海洋
所在学习小组:梅利号


模型建立

模型的建立要定义模型的结构和目标,增加响应建模,考虑模型的稳定性,以及通过预测模型、剖析模型来讨论模型的稳定性。
这里学了随机森林、lightGBM、Xgboost三种模型的使用

随机森林

随机森林通过集成学习的思想,把多颗决策树集成的算法。其每一颗决策树都是一个分类器,对于一个输入样本,n棵树就会有n种分类结果。然后随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出。

随机森林能有效运行在大数据集上,不容易过拟合,训练高维度特征的样本时,不需要降维处理,能评估各个特征分类问题上的重要性

lightGBM

lightGBM也是基于决策树算法,是快速的分布式的梯度提升框架,常用于排序,分类和回归。采用最优的叶明智策略分裂叶子节点。
树木生长算法:直接选择最大收益的节点来展开,在更小的计算代价上去选择我们需要的决策树控制树的深度和每个叶子节点的数据量,能减少过拟合
划分点搜索算法:直方图算法:将特征值分成许多小筒,进而在筒上搜索分裂点,减少了计算代价和存储代价,得到更好的性能。另外数据结构的变化使得在细节处的变化理上效率会不同

Xgboost

Xgboost是优秀的拉动框架,在数据挖掘竞赛中常见的算法。按层生长的方式有利于工程优化,但对学习模型效率不高,划分点搜索算法是对特征预排序的方法

交叉验证

交叉验证用来验证分类器性能的统计分析方法。将原始数据集一部分作为训练集,来对分类器进行训练,然后将另一部分作为测试集,来验证测试得到的分类器模型。
常见交叉验证方法有简单交叉验证、k折交叉验证,留一法交叉验证和留P法交叉验证

几种交叉验证方法不同,但是我觉得本质都差不多,只是训练集测试集所取占比的不同,学懂一种交叉验证方法,其他的也就能水到渠成。

模型调参

模型调参就是找到模型最优时的超参数,尽可能达到整体模型的最优

调参两种方法:网络搜索、学习曲线

网络搜索

一种穷举搜索,在所有参数里面选择,通过遍历在每个参数中找到出现最优模型时的情况。

学习曲线

在训练集大小不同时通过画模型训练集和交叉验证集上的准确率来观察模型在数据上的表现,判断模型的方差或偏差偏离度,和增大训练集是否会过拟合。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值