Datawhale学习记录:数据挖入门 二手车价格预测 Baseline-01
赛题:二手车交易价格预测
- 开源学习内容:
https://github.com/datawhalechina/team-learning-data-mining/tree/master/SecondHandCarPriceForecast - 比赛链接:https://tianchi.aliyun.com/competition/entrance/231784/information
Baseline-01版本含四个部分
- 一、导入函数工具包
- 二、读取数据
- 三、特征选取与标签构建
- 四、模型训练与预测
一、导入函数工具包
- 安装python第三方库小技巧
pip install 所要安装的库 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
国内pip源 | 链接 |
---|---|
阿里云 | http://mirrors.aliyun.com/pypi/simple/ |
中国科技大学 | https://pypi.mirrors.ustc.edu.cn/simple/ |
豆瓣 | http://pypi.douban.com/simple/ |
清华大学 | https://pypi.tuna.tsinghua.edu.cn/simple/ |
中国科学技术大学 | http://pypi.mirrors.ustc.edu.cn/simple/ |
- 参考:pip安装第三方库错误问题,原文链接:https://blog.csdn.net/weixin_44594564/article/details/104453162
二、读取数据
- 数据准备
- 数据大小
- 数据获取链接:
https://tianchi.aliyun.com/competition/entrance/231784/information
三、特征选取与标签构建
- 提取到的数值类型和特征列名
- 标签和分布信息
- 标签分布统计图
四、模型训练与预测
-
评测标准
-
评测结果
-
修正后的评测结果
-
预测结果统计
-
用xgboost进行五折交叉验证查看模型的参数效果
-
参考:决策树、随机森林、GBDT、xgboost、lightgbm、CatBoost相关分析,原文链接:https://blog.csdn.net/u014033218/article/details/88917953?utm_medium=distribute.pc_relevant_download.none-task-blog-baidujs-3.nonecase&depth_1-utm_source=distribute.pc_relevant_download.none-task-blog-baidujs-3.nonecase