爬虫收集数据 pandas导入数据 read_csv read_excel read_json pandas导入数据 数据初步查看 预处理开始 value categories 预处理进行 .describe .shape .head 粗略可视化 分离train_set and test_set train_test_split 1.80%train_set stratified split 1.异常值outliers 1.ellipse 2.RobustScaler 3.IQR 2.missing data 1.drop 2.Imputer 3.数据缩放 1.MinMaxScaler 2.StandardScaler 3.Normalizer 4.离散化连续数值by digitize cross_validation 预处理进行 testing_set and validation_set ML模型并比较不同模型score 调整各种model的超参数 GridSearchCV RandomizedSearchCV 测试集上评估 Launch 测试集上评估 features_combinations 重新开始