Predict Future Sales(时间序列)——Kaggle银牌(TOP 4%)基础方案(一):赛题背景和数据字段分析

笔者将分享一次kaggle数据竞赛的实例,包括了数据竞赛的基本套路流程:赛题业务背景分析,数据探索(EDA),特征工程,单模预测(特征重要性分析)以及stacking模型融合。


本次赛题的链接:Predict Future Sales,赛题任务是对未来的销量进行预测,属于时间序列挖掘的一类问题,数据由俄罗斯最大的软件公司:1C Company提供。

文件说明 

数据集下载:dataset

提供的数据说明
文件名文件说明
sales_train.csv训练集(2013年1月至2015年10月的数据
items.csv有关商品/产品的补充信息
shops.csv有关商店的补充信息
item_categories.csv有关项目类别的补充信息
test.csv测试集(需要预测2015年11月的销售额)
sample_submission.csv格式正确的示例提交文件


        sales_train.csv为训练集,包括字段:date、date_block_num、shop_id、item_id、item_price、item_cnt_day。items.csv、shops.csv、item_categories.csv均为对数据的补充信息,可以构造更加多维的特征,附加了item_name、item_id、item_category_id、item_category_name、item_category_id、shop_name、shop_id等字段,测试集仅包含ID、shop_id、item_id三个字段。各字段的解释如下:

字段名字段说明
ID表示测试集中的(商店,项目)元组的ID
shop_id商店的唯一标识符
item_id产品的唯一标识符
item_category_id项目类别的唯一标识符
item_cnt_day销售的产品数量。您正在预测此度量的每月金额
item_price商品的当前价格
date日期(格式为dd / mm / yyyy)
date_block_num一个连续的月号,用于方便。2013年1月是0,2013年2月是1,…,2015年10月是33
item_name项目名称
shop_name商店名称
item_category_name项目类别的名称

摸清楚各个字段和原始数据的意义是进行数据挖掘的第一步,方便于结合个人的业务理解去处理数据和特征工程的构造。下一篇介绍如何探索原始数据和EDA可视化分析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值