研究随着分类阈值的变化，精确率和召回率的变化

还不秃顶的计科生

已于 2024-10-08 08:48:21 修改

阅读量76

点赞数

分类专栏：机器学习文章标签：分类数据挖掘人工智能

于 2024-10-08 08:30:52 首次发布

本文链接：https://blog.csdn.net/weixin_74009895/article/details/142750438

版权

机器学习专栏收录该内容

48 篇文章 0 订阅

订阅专栏

第一部分：导包

#第一部分：导包
import numpy as np
from sklearn import datasets

第二部分：加载数据集

#第二部分：加载数据集
iris=datasets.load_iris()
X=iris.data
y=iris.target

第三部分：分割数据集

#第三部分：分割数据集
#为了简化问题，我们将其转化为二分类问题
y[y!=0]=1
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=666)

第四部分：训练模型

#第四部分：训练模型
logreg=LogisticRegression()
logreg.fit(X_train,y_train)
y_pred=logreg.predict(X_test)
print(y_pred)

第五部分：遍历获取每一个测试集元素的置信分数

#第五部分：获取每一个测试集元素的置信分数
decision_scores=logreg.decision_function(X_test)
#print(decision_scores)正常情况下，我们是以0为分类标准，大于0分类为1，小于0分类为0

第六部分：计算每一种分类阈值下的精确率和召回率

#第六部分：逐个遍历，调整分类阈值
#先以第一个数为作为分类标准，然后研究其他的这些数分类情况下的精确率和召回率，然后依次循环到最后一个数
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

precision_scores = []
recall_scores = []
thresholds = np.sort(decision_scores)
for threshold in thresholds:
    y_predict = np.array(decision_scores >= threshold, dtype='int')
    precision = precision_score(y_test, y_predict)
    recall = recall_score(y_test, y_predict)
    precision_scores.append(precision)
    recall_scores.append(recall)

第七部分：绘图展示所有精确率和召回率的变化曲线

#第七部分：绘制以上得到的不同精确率和召回率情况
import matplotlib.pyplot as plt
plt.plot(thresholds, precision_scores, color='r', label="Precision")
plt.plot(thresholds, recall_scores, color='b', label="Recall")
plt.legend()
plt.show()#横坐标是分类阈值，纵坐标是精确率和召回率的值

第八部分：完整pycharm代码汇总

#第一部分：导包
import numpy as np
from sklearn import datasets
#第二部分：加载数据集
iris=datasets.load_iris()
X=iris.data
y=iris.target
#第三部分：分割数据集
#为了简化问题，我们将其转化为二分类问题
y[y!=0]=1
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=666)
#第四部分：训练模型
logreg=LogisticRegression()
logreg.fit(X_train,y_train)
y_pred=logreg.predict(X_test)
print(y_pred)
#第五部分：获取每一个测试集元素的置信分数
decision_scores=logreg.decision_function(X_test)
#print(decision_scores)正常情况下，我们是以0为分类标准，大于0分类为1，小于0分类为0
#第六部分：逐个遍历，调整分类阈值
#先以第一个数为作为分类标准，然后研究其他的这些数分类情况下的精确率和召回率，然后依次循环到最后一个数
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

precision_scores = []
recall_scores = []
thresholds = np.sort(decision_scores)
for threshold in thresholds:
    y_predict = np.array(decision_scores >= threshold, dtype='int')
    precision = precision_score(y_test, y_predict)
    recall = recall_score(y_test, y_predict)
    precision_scores.append(precision)
    recall_scores.append(recall)
#第七部分：绘制以上得到的不同精确率和召回率情况
import matplotlib.pyplot as plt
plt.plot(thresholds, precision_scores, color='r', label="Precision")
plt.plot(thresholds, recall_scores, color='b', label="Recall")
plt.legend()
plt.show()#横坐标是分类阈值，纵坐标是精确率和召回率的值

横坐标是分裂阈值，纵坐标是精确率和召回率的变化曲线。

第九部分：我们也可以优化第六部分和第七部分的代码，通过sklearn-learn调用函数计算精确率和召回率并绘制图像

在第七部分绘图中，我们不能取精确率和召回率集合中的最后一个值，那个是自动补充的一个数作为结束标志。

# 第六部分：获取精确率，召回率和置信区间
from sklearn.metrics import precision_recall_curve
# 使用 precision_recall_curve 获取不同阈值下的精确率和召回率
precision_scores, recall_scores, thresholds = precision_recall_curve(y_test, decision_scores)

# 第七部分：绘制以上得到的不同精确率和召回率情况
import matplotlib.pyplot as plt
# 绘制精确率和召回率曲线
plt.plot(thresholds, precision_scores[:-1], color='r', label="Precision")
plt.plot(thresholds, recall_scores[:-1], color='b', label="Recall")
plt.xlabel('Threshold')
plt.ylabel('Score')
plt.legend()
plt.show()  # 横坐标是分类阈值，纵坐标是精确率和召回率的值

修改后的完整代码：

#第一部分：导包
import numpy as np
from sklearn import datasets
#第二部分：加载数据集
iris=datasets.load_iris()
X=iris.data
y=iris.target
#第三部分：分割数据集
#为了简化问题，我们将其转化为二分类问题
y[y!=0]=1
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=666)
#第四部分：训练模型
logreg=LogisticRegression()
logreg.fit(X_train,y_train)
y_pred=logreg.predict(X_test)
#print(y_pred)
#第五部分：获取每一个测试集元素的置信分数
decision_scores=logreg.decision_function(X_test)
#print(decision_scores)正常情况下，我们是以0为分类标准，大于0分类为1，小于0分类为0
# 第六部分：获取精确率，召回率和置信区间
from sklearn.metrics import precision_recall_curve
# 使用 precision_recall_curve 获取不同阈值下的精确率和召回率
precision_scores, recall_scores, thresholds = precision_recall_curve(y_test, decision_scores)

# 第七部分：绘制以上得到的不同精确率和召回率情况
import matplotlib.pyplot as plt
# 绘制精确率和召回率曲线
plt.plot(thresholds, precision_scores[:-1], color='r', label="Precision")
plt.plot(thresholds, recall_scores[:-1], color='b', label="Recall")
plt.xlabel('Threshold')
plt.ylabel('Score')
plt.legend()
plt.show()  # 横坐标是分类阈值，纵坐标是精确率和召回率的值