搞Kaggle比赛也有几个月了,虽然前前后后拖拖但是也是复现过不少比赛的。感觉思路可以总结一下。
1.数据读取。一般数据格式都是以CSV格式的,但是也不排除TXT,JSON格式。所以熟悉pandas和numpy库就极为重要,最后得到预测结果也需要pandas库。
2.数据处理。
(1)使用pandas库等等对数据进行合理的预处理,增删改查属性,对于文本特征可以用sklearn.featuretion.text去创造。
(2)同时使用sklearn库的preprocessing包进行处理
3.建模
选择各种各样的模型进行建模,转化成机器学习问题。
4.进行预测
使用合理指标进行衡量。
5.得到结果。