学习日记1

学习日记1:

数据分析学习日记


模型评估指标

  1. 准确率:所有预测正确样本占全部样本比例=(TP+TN)/(TP+FP+FN+TN)
  2. 精确率:预测正确结果占所有预测成是的概率:TP/(TP+FP)
  3. 召回率:该类别下预测正确的占该类别所有:TP/(TP+FN)
  4. F值:准确率和召回率的调和平均值:2*(准*召)/(准+召)
  5. 混淆矩阵:真阳性TP(TRUE Positive)、真阴性TN、假阳性FP、假阴性FN
  6. (纵坐标)真正例率:TP/(TP+FN)
    (横坐标)假正例率:FP/(FP+TN)
    曲线:ROC曲线
    曲线下方面积:AUC值
  7. ROC曲线反映模型稳定性,当模型曲线趋于对角线值时,说明很不稳定,不准确
  8. 泛化能力评估:过拟合(训好,测差)、欠拟合(都不好)
  9. 评估模型速度:开销、时间
  10. 鲁棒性
  11. 可解释性

KNN算法

  • 原理:找到K个与新数据最近的样本,取样本中最多的一个类别作为新数据的类别
  • 优点:简单、易实现,对边界不规则的数据效果好
  • 缺点:适合小数据集,数据不平衡效果不好,必须数据标准化,不适合特征维度多的数据
  • k值选取会影响模型效果:k小过拟合,k大欠拟合,需要根据经验和效果尝试

决策树

  • 原理:在已知条件中,选取一个条件作为树根,然后看是否还需要其他判断条件,需要的话,再构建一个分支来判断第二个条件,以此类推。最终这棵树,所有叶子节点都是输出类别的信息,非叶子节点都是特征信息。
  • 使用信息增益衡量特征之间的重要性,越大说明越重要
  • 实际上决策树实现采用贪心算法,寻找最近的最优解
  • 特征选择法:ID3(信息增益),C4.5(信息增益比),CART(基尼指数)
  • 优点:直观,可解释性极强,预测速度快,可处理离散值、缺失值
  • 缺点:容易过拟合,需要处理样本不均衡问题,样本变化会引发树结构巨变
  • 预剪枝、后剪枝
  • 随机森林:使用bagging方案构建多个决策树,对所有树结果进行平均计算以获得最终结果
  • GBDT(梯度提升决策树):基于boosting,构建多棵树之间有联系的,每个分类器在上一轮分类器的残差基础上进行训练
  • XGBoost
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值