1、不要试图一开始就产出一个完美无缺的代码,先撸一个baseline的model出来,再进行后续的分析步骤,一步步提高,所谓后续步骤可能包括『分析model现在的状态(欠/过拟合),分析我们使用的feature的作用大小,进行feature selection,以及我们模型下的bad case和产生的原因』等等。
2、对数据的认知要优先于对模型的选择
3、数据中特殊点、离群点的分析和处理极为重要
4、特征工程(feature engineering)太重要了!在很多Kaggle的场景下,甚至比model本身还要重要
5、一定要做模型融合
参考:
https://blog.csdn.net/han_xiaoyang/article/details/49797143