从零开始弄懂LightGBM_实战篇

最新推荐文章于 2024-07-17 22:14:52 发布

小白菜_scc

最新推荐文章于 2024-07-17 22:14:52 发布

阅读量1.8k

点赞数 2

分类专栏：机器学习文章标签：机器学习

原文链接：https://zhuanlan.zhihu.com/p/98926322

版权

机器学习专栏收录该内容

4 篇文章 2 订阅

订阅专栏

作者：楼观白楼
出处：https://zhuanlan.zhihu.com/p/98926322

写在前面

在本次比赛中，我们团队恶魔妈妈买面膜（经主办方建议，决赛时队名修改为秋名山车神）在初赛A榜，初赛B榜，复赛A榜，复赛B榜分别取得2,4,1,3的名次，并在最终决赛中逆袭拿到冠军（1/3000）。

本来复赛B榜是rank 4。由于有一个队伍由于使用小号被取消资格，一个队伍放弃复现，决赛逆袭一个队伍，最终拿到了冠军。说实话，运气非常好。

历时四个月，从多次想要放弃（中间有一个月放弃了没有做）到最终夺冠，真的十分感谢队友！

团队介绍

秋名山车神

梁晨重庆邮电大学研一

陈暄群华南理工大学研二

梁汐然北京大学大四

徐巍重庆邮电大学研二

王猛旗重庆邮电大学研一

如你们所见，我们来自三个不同的学校，通过本次比赛聚集在一起，在此也十分感谢DF平台与主办方CCF。

我们团队中大多数人都是第一次参加数据科学竞赛。

感谢开源

本次比赛要特别感谢的人是鱼佬，他的框架太强了。换成是我我不一定会在比赛中开源这么强的思路，从某种层面上来说这可能会坑到自己。所以敢于开源的人都应该值得称赞，开源与分享可以让整个环境进步。

另外还要感谢月月鸟，阿道，焕明（校友，就是54的那个规则开源，实际上我发现很多队伍的规则都是基于他做的），他们的开源也让我们学习到了很多。

代码

我们本次的方案一共约500行代码，主要的工作在于特征工程与规则构造，思路，代码都很简单，运行只需3min，请放心使用。

https://github.com/cxq80803716/2019-CCF-BDCI-Car_sales

接下来我会详细介绍一下本次的赛题与解决方案。

实测（8g内存，CPU:i5-8500，耗时132秒）：

format,png

赛题介绍

CCF大数据与计算智能大赛（CCF Big Data & Computing Intelligence Contest，简称CCF BDCI）是由中国计算机学会大数据专家委员会于2013年创办的国际化智能算法、创新应用和大数据系统大型挑战赛事，是全球大数据与人工智能领域最具影响力的活动之一。

深瞳是一家大数据与行业智能应用解决方案运营商，为各行业客户提供数据分析与策略咨询服务，帮助行业客户进行数据资产化，为客户提供数据处理、建模分析服务。汽车行业是深瞳所重点服务的核心行业之一，长期服务于国内外知名汽车品牌客户。

近几年来，国内汽车市场由增量市场逐步进入存量市场阶段，2018年整体市场销量首次同比下降。在市场整体趋势逐步改变的环境下，消费者购车决策的过程也正在从线下向线上转移，我们希望能在销量数据自身趋势规律的基础上，找到消费者在互联网上的行为数据与销量之间的相关性，为汽车行业带来更准确有效的销量趋势预测。

https://www.datafountain.cn/competitions/352

备注：（原始数据下载地址，github已经有数据，可以不用下载）

链接：https://pan.baidu.com/s/1Zs5d9CWJuUoX7AmIKAoYmg

提取码：frqb

赛题需要参赛队伍根据给出的60款车型在22个细分市场（省份）的销量连续24个月（从2016年1月至2018年12月）的销量数据，建立销量预测模型；基于该模型预测同一款车型和相同细分市场在接下来一个季度连续4个月份的销量；除销量数据外，还提供同时期的用户互联网行为统计数据，包括：各细分市场每个车型名称的互联网搜索量数据；主流汽车垂直媒体用户活跃数据等。参赛队伍可同时使用这些非销量数据用于建模。

简单来说，本次赛题给出2016.1~2017.12的省份，车型，车身，销量，搜索量，评论量，评价量等，要求预测2018.1~2018.4的销量。

评价指标是归一化均方根误差的均值

数据分析

通过初步分析数据可以发现省份-车型所组成的类别特别多，并且对于同一车型，波动也挺大的，销量的范围较大等。

顺便说一下，我们经过多次尝试发现评论量与评价量几乎起不到作用，所以这两个特征我们并没有使用，如果你有办法处理这两个特征，欢迎评论讨论。

数据预处理

为了使数据分布更加符合高斯分布，对数据做了log1p的预处理。

算法整体方案

我们在初赛的时候尝试了xgb,lgb,cat,prophet,rule,lstm,cnn，并且初赛的最终结果是由lgb,prophet,rule与lstm融合而来。但是后来我们发现就算只用lgb和rule也能得到差不多的分数，时序模型与深度学习模型在这道小数据时序问题上并不适用，又考虑到工业环境中模型越少，越简单越好，因此复赛时，我们只使用了差异性足够大的lgb与rule两个模型。