task2
怀着紧张的心情开启了自己第一次关于数据方面的比赛之旅,有挑战,也有期待。
关于赛题
- 理解赛题
- 对赛题背景要了解,不要一拿到赛题就拿代码,拿数据去跑;
- 数据中会有很多异常值,我们要对错误值、缺失值等等进行数据清洗;
- 比赛分类通常为三种,分类问题,回归问题,其他问题,本次比赛的二手车交易是一个回归问题,用已有之前的数据进行回归分析来预测以后的二手车的价格等等;
- 泛化能力要强,做出的模型要对学习集以外的一些数据能做出更好的预测;
- 赛题的数据
- Field–Description表示标签与其对应的描述,
- 数据分为定类变量,定序变量,定距变量。分别表示 :名义上的,不能用数目或程度表示,如性别;有分类,排序,但差无意义,如消费水平;有分量,有排序,且差有意义,如身高体重。
- 比赛的评判标准,有 R^2,MAE平均觉得误差,MSE均方误差
Baseline
- 数据科学库:pandas,numpy,scipy
- 数据可视化:matplotlib,seabon
- xgb,lbg等算法是模型建造的重点
这些都是以后需要找时间细细学习的地方