利用XGBoosting进行预测

最新推荐文章于 2024-05-28 08:52:46 发布

tuntunwang

最新推荐文章于 2024-05-28 08:52:46 发布

阅读量1.4w

点赞数 3

分类专栏：数据挖掘文章标签： XGBoosting python 预测时间序列

本文链接：https://blog.csdn.net/tuntunwang/article/details/66476195

版权

本文介绍了Boosting模型中的XGBoosting，它是一种高效、精度高的梯度提升算法实现。XGBoosting在大数据集上的快速并行处理能力使其在预测任务中表现出色，特别是在时间序列预测中。作者分享了如何利用XGBoosting解决2000个shop未来6周销售量的预测问题，以及在Kaggle竞赛中的应用案例。

摘要由CSDN通过智能技术生成

Boosting分类器属于集成学习模型，它基本思想是把成百上千个分类准确率较低的树模型组合起来，成为一个准确率很高的模型。这个模型会不断地迭代，每次迭代就生成一颗新的树。对于如何在每一步生成合理的树，大家提出了很多的方法，我们这里简要介绍由Friedman提出的Gradient Boosting Machine。它在生成每一棵树的时候采用梯度下降的思想，以之前生成的所有树为基础，向着最小化给定目标函数的方向多走一步。关于GBDT的理论介绍，生活实例以及代码，可以看下面链接

http://blog.csdn.net/tuntunwang/article/details/66969726

在合理的参数设置下，我们往往要生成一定数量的树才能达到令人满意的准确率。在数据集较大较复杂的时候，我们可能需要几千次迭代运算，如果生成一个树模型需要几秒钟，那么这么多迭代的运算耗时，应该能让你专心地想静静…

现在，我们希望能通过xgboost工具更好地解决这个问题。xgboost的全称是eXtreme Gradient Boosting。正如其名，它是Gradient Boosting Machine的一个c++实现（只是代码实现上的创新），作者为正在华盛顿大学研究机器学习的大牛陈天奇。他在研究中深感自己受制于现有库的计算速度和精度，因此在一年前开始着手搭建xgboost项目，并在去年夏天逐渐成型。xgboost最大的特点在于，它能够自动利用CPU的多线程进行并行，同时在算法上加以改进提高了精度。它的处女秀是Kaggle的希格斯子信号识别竞赛，因为出众的效率与较高的预测准确度在比赛论坛中引起了参赛选手的广泛关注，在1700多支队伍的激烈竞争中占有一席之地。随着它在Kaggle社区知名度的提高，最近也有队伍借助xgboost在比赛中夺得第一。为了方便大家使用，陈天奇将xgboost封装成了python库。

这里的背景是预测2000个shop未来6周的销售量。训练数据是2015-7-1至2016-10-30的流量（天池IJICAI）

数据下载地址 https://pan.baidu.com/s/1miz8CrA

代码如下

#encoding=utf-8
import pandas as pd
import numpy as np
import time
from sklearn import cross_validation
import xgboost as xgb
DATA_DIR="/home/wangtuntun/IJCAI/Data/"
shop_info_column_names=["shop_id","city_name","location_id","per_pay","score","comment_cnt","shop_level","cate_1","cate_2","cate_3"]
# user_pay_colimn_names=["user_id","shop_id","time_stamp"]#用python实现groupby方法不好实现，利用spark的sparkcontext.sql()实现，然后存取文件
shop_info=pd.read_csv(DATA_DIR+"shop_info.txt",names=shop_info_column_names)
flow_path="/home/wangtuntun/IJCAI/Data/ml_flow_raw_data_file.txt/part-00000"#这个文件是用sparkContext.sql()实现的，在本代码中不做代码展示。
merge_data_path="/home/wangtuntun/shop_info_flow.csv" #将