学习日记1

兔了

于 2022-03-23 23:06:05 发布

阅读量60

点赞数

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43747784/article/details/123699020

版权

学习日记1：

数据分析学习日记

模型评估指标

准确率：所有预测正确样本占全部样本比例=(TP+TN)/(TP+FP+FN+TN)
精确率：预测正确结果占所有预测成是的概率：TP/(TP+FP)
召回率：该类别下预测正确的占该类别所有：TP/(TP+FN)
F值：准确率和召回率的调和平均值：2*（准*召）/（准+召）
混淆矩阵：真阳性TP(TRUE Positive）、真阴性TN、假阳性FP、假阴性FN
（纵坐标）真正例率：TP/(TP+FN)
（横坐标）假正例率：FP/(FP+TN)
曲线：ROC曲线
曲线下方面积：AUC值
ROC曲线反映模型稳定性，当模型曲线趋于对角线值时，说明很不稳定，不准确
泛化能力评估：过拟合（训好，测差）、欠拟合（都不好）
评估模型速度：开销、时间
鲁棒性
可解释性

KNN算法

原理：找到K个与新数据最近的样本，取样本中最多的一个类别作为新数据的类别
优点：简单、易实现，对边界不规则的数据效果好
缺点：适合小数据集，数据不平衡效果不好，必须数据标准化，不适合特征维度多的数据
k值选取会影响模型效果：k小过拟合，k大欠拟合，需要根据经验和效果尝试

决策树

原理：在已知条件中，选取一个条件作为树根，然后看是否还需要其他判断条件，需要的话，再构建一个分支来判断第二个条件，以此类推。最终这棵树，所有叶子节点都是输出类别的信息，非叶子节点都是特征信息。
使用信息增益衡量特征之间的重要性，越大说明越重要
实际上决策树实现采用贪心算法，寻找最近的最优解
特征选择法：ID3(信息增益），C4.5(信息增益比），CART(基尼指数）
优点：直观，可解释性极强，预测速度快，可处理离散值、缺失值
缺点：容易过拟合，需要处理样本不均衡问题，样本变化会引发树结构巨变
预剪枝、后剪枝
随机森林：使用bagging方案构建多个决策树，对所有树结果进行平均计算以获得最终结果
GBDT（梯度提升决策树）：基于boosting，构建多棵树之间有联系的，每个分类器在上一轮分类器的残差基础上进行训练
XGBoost

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习日记1

学习日记1：数据分析学习日记模型评估指标准确率：所有预测正确样本占全部样本比例=(TP+TN)/(TP+FP+FN+TN)精确率：预测正确结果占所有预测成是的概率：TP/(TP+FP)召回率：该类别下预测正确的占该类别所有：TP/(TP+FN)F值：准确率和召回率的调和平均值：2*（准*召）/（准+召）混淆矩阵：真阳性TP(TRUE Positive）、真阴性TN、假阳性FP、假阴性FN（纵坐标）真正例率：TP/(TP+FN)（横坐标）假正例率：FP/(FP+TN)曲线：ROC曲线
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。