Predict Future Sales（时间序列）——Kaggle银牌（TOP 4%）基础方案（一）：赛题背景和数据字段分析

最新推荐文章于 2024-08-19 14:42:45 发布

贝壳er

最新推荐文章于 2024-08-19 14:42:45 发布

阅读量5.1k

点赞数 4

分类专栏：数据竞赛（数据挖掘）文章标签： kaggle 时间序列机器学习数据挖掘

本文链接：https://blog.csdn.net/wlx19970505/article/details/100938953

版权

数据竞赛（数据挖掘）专栏收录该内容

5 篇文章 11 订阅

订阅专栏

笔者将分享一次kaggle数据竞赛的实例，包括了数据竞赛的基本套路流程：赛题业务背景分析，数据探索（EDA），特征工程，单模预测（特征重要性分析）以及stacking模型融合。

本次赛题的链接：Predict Future Sales，赛题任务是对未来的销量进行预测，属于时间序列挖掘的一类问题，数据由俄罗斯最大的软件公司：1C Company提供。

文件说明

数据集下载：dataset

提供的数据说明
文件名	文件说明
sales_train.csv	训练集（2013年1月至2015年10月的数据
items.csv	有关商品/产品的补充信息
shops.csv	有关商店的补充信息
item_categories.csv	有关项目类别的补充信息
test.csv	测试集（需要预测2015年11月的销售额）
sample_submission.csv	格式正确的示例提交文件

sales_train.csv为训练集，包括字段：date、date_block_num、shop_id、item_id、item_price、item_cnt_day。items.csv、shops.csv、item_categories.csv均为对数据的补充信息，可以构造更加多维的特征，附加了item_name、item_id、item_category_id、item_category_name、item_category_id、shop_name、shop_id等字段，测试集仅包含ID、shop_id、item_id三个字段。各字段的解释如下：

字段名	字段说明
ID	表示测试集中的（商店，项目）元组的ID
shop_id	商店的唯一标识符
item_id	产品的唯一标识符
item_category_id	项目类别的唯一标识符
item_cnt_day	销售的产品数量。您正在预测此度量的每月金额
item_price	商品的当前价格
date	日期（格式为dd / mm / yyyy）
date_block_num	一个连续的月号，用于方便。2013年1月是0，2013年2月是1，…，2015年10月是33
item_name	项目名称
shop_name	商店名称
item_category_name	项目类别的名称