机器学习模型评估指标解析与代码实现_机器学习算法效果评估代码-CSDN博客

本文链接：https://blog.csdn.net/z_ran/article/details/135626823

在机器学习领域，开发出准确且可靠的模型是至关重要的。但是，仅仅训练一个模型并不足以保证其表现良好。还需要对模型进行评估，以确保其在处理新数据时能够正确地进行预测。

在进行模型评估时，需要选取合适的评估指标和技术来衡量模型的精准度。这包括准确率、精确率、召回率、F1 分数等指标。但是，了解这些指标并不足以让我们顺利地评估模型。还需要知道如何使用这些指标来计算模型的表现，并将其应用于实际的数据集。

为此，在这篇文章中，提供针对Python编程语言的实现示例。通过这篇文章，您将学会如何选取和使用合适的评估指标，以及如何编写代码来评估模型的表现。无论您是初学者还是经验丰富的机器学习工程师，这篇文章都将为您提供有价值的知识和实践经验。

二分类-模型评估脚本

描述：根据花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征，将鸢尾花分为两个类别

# 鸢尾花分类 二分类
# 导入所需的库
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt

# 加载数据集
iris = load_iris()
X, y = iris.data[:, :2], iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建决策树分类器模型
clf = DecisionTreeClassifier()
# 在训练集上拟合模型
clf.fit(X_train, y_train)

# 在测试集上进行预测并计算准确率
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

# 绘制二分类x轴和y轴图像
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='viridis')
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
plt.show()

效果图

回归-模型评估脚本

描述：使用该镇的人均犯罪率、一氧化碳浓度、低收入人群占比等13个属性，来预测房屋的价格

# 波士顿房价预测回归类型
# 导入所需的库
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt

# 加载数据集
boston = load_boston()
X, y = boston.data[:, 0], boston.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建线性回归模型
model = LinearRegression()
# 在训练集上拟合模型
model.fit(X_train.reshape(-1, 1), y_train)

# 在测试集上进行预测并计算R^2值
y_pred = model.predict(X_test.reshape(-1, 1))
r2_score = r2_score(y_test, y_pred)

# 绘制回归类型x轴和y轴图像
plt.scatter(X, y)
plt.plot(X_test, y_pred, color='red', linewidth=3)
plt.xlabel('Average number of rooms per dwelling')
plt.ylabel('Median value of owner-occupied homes in $1000s')
plt.show()

效果图：

聚类-模型评估脚本

描述：根据花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征，对鸢尾花进行聚类

# 鸢尾花聚类
# 导入所需的库
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 创建KMeans模型并拟合数据
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)

# 绘制聚类图表
fig, ax = plt.subplots(figsize=(8, 6))
plt.scatter(X[kmeans.labels_ == 0, 0], X[kmeans.labels_ == 0, 1], s = 100, c = 'red', label = 'Cluster 1')
plt.scatter(X[kmeans.labels_ == 1, 0], X[kmeans.labels_ == 1, 1], s = 100, c = 'blue', label = 'Cluster 2')
plt.scatter(X[kmeans.labels_ == 2, 0], X[kmeans.labels_ == 2, 1], s = 100, c = 'green', label = 'Cluster 3')

# 绘制聚类中心点
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s = 200, marker='.', c = 'black', label = 'Centroids')

plt.legend()
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
plt.show()

效果图：

统计分析脚本

描述：使用泰坦尼克号数据集进行基本的数据分析

# 数据分析
# 导入必要的库
import seaborn as sns
import matplotlib.pyplot as plt

# 从 Seaborn 库中加载泰坦尼克号数据集，存储为 DataFrame
titanic_data = sns.load_dataset('titanic')

# 数据基本情况概览
print("========== Data Overview ==========")
print(titanic_data.head())
print("\n")

# 数据统计信息
print("========== Data Statistics ==========")
print(titanic_data.describe())
print("\n")

# 缺失值数量统计
print("========== Missing Value Count ==========")
print(titanic_data.isnull().sum())
print("\n")

# 幸存者数量统计
print("========== Survival Count ==========")
print(titanic_data['survived'].value_counts())
print("\n")
# 不同年龄段的存活率比较可视化
age_bins = [0, 10, 20, 30, 40, 50, 60, 70, 80]
age_labels = ['0-10', '11-20', '21-30', '31-40', '41-50', '51-60', '61-70', '71-80']
titanic_data['age_group'] = pd.cut(titanic_data['age'], bins=age_bins, labels=age_labels)
sns.barplot(x='age_group', y='survived', data=titanic_data)
plt.title('Survival Rate by Age Group')
plt.show()

效果图：

深度学习-多分类-模型评估脚本

描述：利用DNN模型对鸢尾花数据集进行分类

# 鸢尾花多分类
# 导入必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import tensorflow as tf
from tensorflow.keras.utils import to_categorical

# 加载鸢尾花数据集
iris_data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=None)
X = iris_data.iloc[:, :4].values
y = iris_data.iloc[:, 4].values

# 将类别标签转成数字标签
label_dict = {k: i for i, k in enumerate(np.unique(y))}
y = np.array([label_dict[label] for label in y])

# 数据标准化处理
scaler = StandardScaler()
X = scaler.fit_transform(X)

# 将标签进行one-hot编码
y = to_categorical(y)

# 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 定义DNN模型
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(units=16, activation='relu', input_shape=(4,),
                          kernel_regularizer=tf.keras.regularizers.L2(0.01)),
    tf.keras.layers.Dropout(rate=0.3),
    tf.keras.layers.Dense(units=3, activation='softmax')
])
model.summary()

# 编译并训练模型
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
history = model.fit(X_train, y_train, epochs=50, batch_size=16, validation_data=(X_test, y_test))

# 展示模型的训练曲线
plt.plot(history.history['accuracy'], label='training accuracy')
plt.plot(history.history['val_accuracy'], label='validation accuracy')
plt.title('Model Accuracy')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.legend()
plt.show()

# 在测试集上进行分类预测
y_pred = np.argmax(model.predict(X_test), axis=-1)

# 可视化分类结果与实际结果比较
plt.scatter(X_test[:, 0], X_test[:, 2], c=y_pred, cmap='coolwarm')
plt.title('Predicted Labels')
plt.xlabel('Sepal Length (cm)')
plt.ylabel('Petal Length (cm)')
plt.show()

plt.scatter(X_test[:, 0], X_test[:, 2], c=np.argmax(y_test, axis=-1), cmap='coolwarm')
plt.title('Actual Labels')
plt.xlabel('Sepal Length (cm)')
plt.ylabel('Petal Length (cm)')
plt.show()

效果图：