机器学习-决策树、随机森林、Relief特征选择算法

最新推荐文章于 2025-02-19 22:07:14 发布

炸掉计算机

最新推荐文章于 2025-02-19 22:07:14 发布

阅读量742

点赞数 4

分类专栏： python 文章标签：机器学习算法决策树随机森林

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55664962/article/details/135796363

版权

采用 ski-learn 提供的乳腺癌数据集作为训练模型和预测模型的数据集，采用 Rellief做特征选择，采用随机森林集成学习算法，采用决策树单学习器作为集成学习的对比。

并计算出每种算法的召回率、精度和 F1 分数，画出其ROC曲线和AUC值。

召回率（Recall）：也称为查全率，用来度量模型成功地识别出所有正例的能力。召回率定义见公式1. 召回率的取值范围在 0 到 1 之间，数值越高表示模型对正例的识别能力越强。

精度（Precision）：用来度量模型识别出的正例中有多少是真正的正例。精度定义见公式2.精度的取值范围也在 0 到 1 之间，数值越高表示模型对其判断的正例中真实的正例比例越高。

F1 分数：综合考虑了召回率和精度，是召回率和精度的调和平均数，定义见公式3. F1 分数综合考虑了模型对正例的识别能力和对正例识别的准确性，取值范围同样在 0 到 1 之间，数值越高表示模型在识别和分类任务中的综合表现越好。

Recall=TP/（TP+FN）公式1

Precision=TP/（TP+FP）公式2

F1分数=2×Recall×Precision/（Recall+Precision ）公式3

其中，TP (True Positives) 表示被模型正确识别为正例的样本数，FN(False Negatives)表示本应该被模型识别为正例但未被识别的样本数。FP(False Positives )表示被错误识别为正例的负例样本数。这些度量指标在评估分类模型的性能时非常重要，可以帮助我们更全面地了解模型的表现，并且在优化模型、调整阈值或者比较不同模型时非常有用。

ROC曲线和AUC值是完成了决策树和随机森林模型的训练，并进行了预测之后，评估模型性能的重要指标之一。ROC曲线是一种用于可视化分类模型性能的方法，它显示了不同阈值下真阳性率（True Positive Rate，TPR）与假阳性率（False Positive Rate，FPR）之间的关系。而AUC (Area Under the Curve)表示ROC 曲线下的面积，用于量化分类器的性能。

真阳性率 (TPR)：也称为召回率（Recall），指的是在所有实际为正例的样本中，被正确预测为正例的比例。计算公式为公式1。

假阳性率 (FPR)：表示在所有实际为负例的样本

最低0.47元/天解锁文章

炸掉计算机

博客等级

码龄4年

5
原创

47
点赞

49
收藏

28
粉丝

关注

私信

热门文章

分类专栏

python 4篇
matlab 1篇

最新评论

机器学习-决策树、随机森林、Relief特征选择算法
CSDN-Ada助手: 恭喜您写了第5篇博客！标题中涵盖了机器学习中的决策树、随机森林以及Relief特征选择算法，内容看起来非常有深度和广度。希望您能继续保持创作的热情和努力，不断分享关于机器学习的知识和经验。或许在下一篇博客中，您可以深入探讨一些具体的实际案例或者应用场景，这样读者能更好地理解这些算法在实践中的应用。期待您的下一篇作品！
MATLAB-区域生长法-基于区域生长法的脑白（灰）质的分割
CSDN-Ada助手: 非常感谢您的第四篇博客，标题听起来非常专业！恭喜您持续创作并分享关于MATLAB区域生长法在脑白（灰）质分割方面的经验。我很欣赏您的努力和专业知识。在下一步的创作中，我建议您考虑进一步探索MATLAB区域生长法在其他领域的应用，例如医学图像处理或者其他生物学研究。这将为读者提供更多有关区域生长法的实际应用案例，并拓宽我们的知识领域。再次恭喜您，并期待您未来更多精彩的博客！请继续保持谦虚的态度，我们都在学习和进步的道路上不断成长。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
数据集预处理——机器学习/深度学习
CSDN-Ada助手: 非常恭喜你开始写博客！标题看起来很有趣，数据集预处理是机器学习和深度学习中至关重要的一步。你选择的主题很好，因为预处理对于模型的性能和结果有着巨大的影响。在下一步的创作中，或许你可以进一步探讨一些常见的数据集预处理方法，例如数据清洗、特征缩放、特征选择等等。另外，你还可以分享一些你在实践中遇到的挑战和解决方案，这将使你的博客更加实用和有趣。祝愿你在博客创作的旅程中取得更多的成果，并且期待着你未来的博文！继续保持谦虚的态度，不断学习和分享，相信你的博客会受到更多读者的关注和支持。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
数据集按标签存放在子文件夹后读取标签（读取子文件夹名称）
CSDN-Ada助手: 很棒的博文！你对于数据集的处理方法非常有深度，而且你的代码示例也非常清晰易懂。希望你能继续分享你的经验，让更多的人受益。另外，如果你对于数据集的处理方法还有其他的技巧或者是一些扩展知识，也可以分享给大家，相信会有更多人对此感兴趣的。继续加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
python 生成长短轴平均值固定的随机椭圆
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。