sklearn.metrics.roc_auc_score(二分类/多分类/多标签)

最新推荐文章于 2023-06-09 09:07:28 发布

richardxp888

最新推荐文章于 2023-06-09 09:07:28 发布

阅读量2.3k

点赞数 2

分类专栏： cv 安装问题 pytorch 文章标签： sklearn 分类 python

本文链接：https://blog.csdn.net/weixin_46087812/article/details/127113045

版权

pytorch 同时被 3 个专栏收录

11 篇文章 1 订阅

订阅专栏

安装问题

5 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

数据格式

y_true： (n_samples,) or (n_samples, n_classes)
y_score： (n_samples,) or (n_samples, n_classes)

样例

二分类

>>> from sklearn.datasets import load_breast_cancer
>>> from sklearn.linear_model import LogisticRegression
>>> from sklearn.metrics import roc_auc_score
>>> X, y = load_breast_cancer(return_X_y=True)
>>> clf = LogisticRegression(solver="liblinear", random_state=0).fit(X, y)
>>> roc_auc_score(y, clf.predict_proba(X)[:, 1])
0.99...
>>> roc_auc_score(y, clf.decision_function(X))
0.99...

多分类

>>> from sklearn.datasets import load_iris
>>> X, y = load_iris(return_X_y=True)
>>> clf = LogisticRegression(solver="liblinear").fit(X, y)
>>> roc_auc_score(y, clf.predict_proba(X), multi_class='ovr')
0.99...

多标签

>>> import numpy as np
>>> from sklearn.datasets import make_multilabel_classification
>>> from sklearn.multioutput import MultiOutputClassifier
>>> X, y = make_multilabel_classification(random_state=0)
>>> clf = MultiOutputClassifier(clf).fit(X, y)
>>> # get a list of n_output containing probability arrays of shape
>>> # (n_samples, n_classes)
>>> y_pred = clf.predict_proba(X)
>>> # extract the positive columns for each output
>>> y_pred = np.transpose([pred[:, 1] for pred in y_pred])
>>> roc_auc_score(y, y_pred, average=None)
array([0.82..., 0.86..., 0.94..., 0.85... , 0.94...])
>>> from sklearn.linear_model import RidgeClassifierCV
>>> clf = RidgeClassifierCV().fit(X, y)
>>> roc_auc_score(y, clf.decision_function(X), average=None)
array([0.81..., 0.84... , 0.93..., 0.87..., 0.94...])

常见报错与分析

训练集中的标签不全，如三分类任务中训练集只出现0和1标签，会出现y_test和y_score之间的roc_auc_score的不匹配，这种情况下可以进行数据集的重新划分，也可以对roc_auc_score的参数进行调整，如可以设置multi_class='ovo以及labels=[0,1,2]，这样可以避免出现报错。
数据格式的问题。尽量选择numpy.array，避免在多分类或多标签任务中报错。