用c++写代码之AUC算法

最新推荐文章于 2022-11-04 11:35:59 发布

伊香

最新推荐文章于 2022-11-04 11:35:59 发布

阅读量1.2k

点赞数 1

分类专栏： c++算法文章标签：算法数据挖掘机器学习

本文链接：https://blog.csdn.net/weixin_43807155/article/details/103543374

版权

本文介绍了AUC在统计和机器学习中的作用，特别是作为二分类模型性能评估的标准。详细阐述了True Positive等概念，并说明了AUC的计算方法，以及其在军事、心理学、医学和数据挖掘等多个领域的应用。最后，文章提及将实现AUC算法的c++代码。

摘要由CSDN通过智能技术生成

算法来源
在统计和机器学习中，常常用AUC来评估二分类模型的性能。AUC的全称是 area under the curve，即曲线下的面积。通常这里的曲线指的是受试者操作曲线(Receiver operating characteristic, ROC)。ROC曲线早在第二次世界大战期间就被使用在电子工程和雷达工程当中，被用于军事目标检测。后来，ROC曲线也被应用到心理学、医学、机器学习和数据挖掘等领域的模型性能评估。
算法描述
首先，解释几个二分类问题中常用的概念：True Positive, False Positive, True Negative, False Negative。它们是根据真实类别与预测类别的组合来区分的。
假设有一批test样本，这些样本只有两种类别：正例和反例。机器学习算法预测类别如下图（左半部分预测类别为正例，右半部分预测类别为反例），而样本中真实的正例类别在上半部分，下半部分为真实的反例。
预测值为正例，记为P（Positive）
预测值为反例，记为N（Negative）
预测值与真实值相同，记为T（True）
预测值与真实值相反，记为F（False）

TP：预测类别是P（正例），真实类别也是P
FP：预测类别是P，真实类别是N（反例）
TN：预测类别是N，真实类别也是N
FN：预测类别是N，真实类别是P
样本中的真实正例类别总数即TP

关注