Scikit-learn(sklearn)机器学习必备库
除了sklearn。需要学的基本库还有numpy,scipy,pandas,matplotlib.都是非常重要的包。
sklearn建模流程:(掌握常见机器学习模型)
- 数据预处理
- 特征工程,特征编码
- 模型选择
- 模型训练与测试
- 模型评价,误差分析
数据预处理常用手段:
- Standardization,or mea removal and variance scaling (标准化或均值去除和方差缩放)
- Non-linear transformation(非线性变换)
- Normalization(归一化)
- Encoding categorical features(编码分类特征)
- Discretization(离散化)
- Imputation of missing values(缺失值插补)
- Generaing polynomial features(生成多项式特征)
- Custom transformers(自定义处理方式)
每一种手段都有多种方式方法!
特征工程,特征编码
常用方式有:
preprocessing.LableEncoder
preprocessing.OneHotEncoder
preprocessing.OrdinalEncoder
模型训练与测试
sklearn提供了所有模型的训练、预测、打分方法:
- fit :模型训练
- predict :模型预测
- predict_prob: 模型预测结果对应的概率值
- score :模型打分
常见的机器学习模型有:
- 线性模型(线性回归、岭回归、逻辑回归等)
- 树模型 (决策树)
- 神经网络 (DNN)
- 无监督模型 (Kmeans聚类)
注:sklearn中不包含XGBoost、LightGBM、CatBoost的实现,sklearn中的神经网络不支持GPU运算。
模型评价与误差分析
回归任务:
- MAPE
- MSE
- MAE
- R 2 R^2 R2
分类任务:
- Precision-Recall
- ROC-AUC
- Accuracy
- Log-Loss
无监督任务:
- Rand Index
- Mutual Information
其他任务:
- CV Error
- BLEU Score(NLP)
- Heuristic methpds to find K
数据划分方法(模型评价):
- 留出法(Hold-out)
- K折交叉验证(K-fold CV)
- 自助采样(Bootstrap)
深入了解请查看sklearn官网或博主其他文章。