精准率和召回率
混淆矩阵
如图为混淆矩阵,其中精准率为在预测正例中的真实也为正的占比;召回率为在真实正例中的预测为正的占比。
因此可以得到以下公式:
precision = TP/(TP + FP)
recall = TP/(TP +FN)
绘制PR曲线
python库
本例使用sklearn库,并使用该库中的乳腺癌数据集与liblinear优化算法计算精准率和召回率。通过matplotlib库绘制PR曲线
实现代码
from sklearn.metrics import precision_recall_curve
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer
import matplotlib.pyplot as plt
data = load_breast_cancer() # 读取数据集
X = data.data
y = data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=66) # 分割数据集
model = LogisticRegression(solver='liblinear') # 采用liblinear优化算法的逻辑回归分类算法
# 训练模型
model.fit(X_train, y_train)
# 预测结果
scores = model.decision_function(X_test)
# 计算不同概率阈值的精确召回对
precisions, recalls, thresholds = precision_recall_curve(y_test, scores)
# 绘图
plt.plot(precisions, recalls)
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.show()
运行结果
可以看出当精准率为1时召回率极低,召回率为1时精准率极低。但存在两者均相对高的点。