笔者将分享一次kaggle数据竞赛的实例,包括了数据竞赛的基本套路流程:赛题业务背景分析,数据探索(EDA),特征工程,单模预测(特征重要性分析)以及stacking模型融合。
本次赛题的链接:Predict Future Sales,赛题任务是对未来的销量进行预测,属于时间序列挖掘的一类问题,数据由俄罗斯最大的软件公司:1C Company提供。
文件说明
数据集下载:dataset
文件名 | 文件说明 |
sales_train.csv | 训练集(2013年1月至2015年10月的数据 |
items.csv | 有关商品/产品的补充信息 |
shops.csv | 有关商店的补充信息 |
item_categories.csv | 有关项目类别的补充信息 |
test.csv | 测试集(需要预测2015年11月的销售额) |
sample_submission.csv | 格式正确的示例提交文件 |
sales_train.csv为训练集,包括字段:date、date_block_num、shop_id、item_id、item_price、item_cnt_day。items.csv、shops.csv、item_categories.csv均为对数据的补充信息,可以构造更加多维的特征,附加了item_name、item_id、item_category_id、item_category_name、item_category_id、shop_name、shop_id等字段,测试集仅包含ID、shop_id、item_id三个字段。各字段的解释如下:
字段名 | 字段说明 |
ID | 表示测试集中的(商店,项目)元组的ID |
shop_id | 商店的唯一标识符 |
item_id | 产品的唯一标识符 |
item_category_id | 项目类别的唯一标识符 |
item_cnt_day | 销售的产品数量。您正在预测此度量的每月金额 |
item_price | 商品的当前价格 |
date | 日期(格式为dd / mm / yyyy) |
date_block_num | 一个连续的月号,用于方便。2013年1月是0,2013年2月是1,…,2015年10月是33 |
item_name | 项目名称 |
shop_name | 商店名称 |
item_category_name | 项目类别的名称 |
摸清楚各个字段和原始数据的意义是进行数据挖掘的第一步,方便于结合个人的业务理解去处理数据和特征工程的构造。下一篇介绍如何探索原始数据和EDA可视化分析。