学习日记1:
数据分析学习日记
模型评估指标
- 准确率:所有预测正确样本占全部样本比例=(TP+TN)/(TP+FP+FN+TN)
- 精确率:预测正确结果占所有预测成是的概率:TP/(TP+FP)
- 召回率:该类别下预测正确的占该类别所有:TP/(TP+FN)
- F值:准确率和召回率的调和平均值:2*(准*召)/(准+召)
- 混淆矩阵:真阳性TP(TRUE Positive)、真阴性TN、假阳性FP、假阴性FN
- (纵坐标)真正例率:TP/(TP+FN)
(横坐标)假正例率:FP/(FP+TN)
曲线:ROC曲线
曲线下方面积:AUC值 - ROC曲线反映模型稳定性,当模型曲线趋于对角线值时,说明很不稳定,不准确
- 泛化能力评估:过拟合(训好,测差)、欠拟合(都不好)
- 评估模型速度:开销、时间
- 鲁棒性
- 可解释性
KNN算法
- 原理:找到K个与新数据最近的样本,取样本中最多的一个类别作为新数据的类别
- 优点:简单、易实现,对边界不规则的数据效果好
- 缺点:适合小数据集,数据不平衡效果不好,必须数据标准化,不适合特征维度多的数据
- k值选取会影响模型效果:k小过拟合,k大欠拟合,需要根据经验和效果尝试
决策树
- 原理:在已知条件中,选取一个条件作为树根,然后看是否还需要其他判断条件,需要的话,再构建一个分支来判断第二个条件,以此类推。最终这棵树,所有叶子节点都是输出类别的信息,非叶子节点都是特征信息。
- 使用信息增益衡量特征之间的重要性,越大说明越重要
- 实际上决策树实现采用贪心算法,寻找最近的最优解
- 特征选择法:ID3(信息增益),C4.5(信息增益比),CART(基尼指数)
- 优点:直观,可解释性极强,预测速度快,可处理离散值、缺失值
- 缺点:容易过拟合,需要处理样本不均衡问题,样本变化会引发树结构巨变
- 预剪枝、后剪枝
- 随机森林:使用bagging方案构建多个决策树,对所有树结果进行平均计算以获得最终结果
- GBDT(梯度提升决策树):基于boosting,构建多棵树之间有联系的,每个分类器在上一轮分类器的残差基础上进行训练
- XGBoost