模型评估指标(二)

对许

已于 2024-06-06 11:30:11 修改

阅读量709

点赞数 17

分类专栏： # 人工智能与机器学习 # Python 文章标签：人工智能机器学习

于 2024-06-05 11:20:59 首次发布

本文链接：https://blog.csdn.net/weixin_55629186/article/details/139466254

版权

科学家门捷列夫说“没有测量，就没有科学”，在AI场景下我们同样需要定量的数值化指标来指导我们更好地应用模型对数据进行学习和建模

事实上，在机器学习领域，对模型的测量和评估至关重要。选择与问题相匹配的评估方法，能帮助我们快速准确地发现在模型选择和训练过程中出现的问题，进而对模型进行优化和迭代

模型评估的目标是选出泛化能力强的模型完成机器学习任务。实际的机器学习任务往往需要进行大量的实验，经过反复调参、使用多种模型算法（甚至多模型融合策略）来完成自己的机器学习问题，并观察哪种模型算法在什么样的参数下能够最好地完成任务

泛化能力强的模型能很好地适用于未知的样本，模型的错误率低、精度高。机器学习任务中，我们希望最终能得到准确预测未知标签的样本（即泛化能力强）的模型

但是我们无法提前获取未知的样本，因此我们会基于已有的数据进行切分来完成模型训练和评估，借助于切分出的测试数据进行评估，可以很好地判定模型状态（过拟合/欠拟合），进而迭代优化

在建模过程中，为了获得泛化能力强的模型，我们需要一整套方法及评价指标：

模型评估方法主要涉及到对完整数据集不同的有效划分方法，保证我们后续计算得到的评估指标是可靠有效的，进而进行模型选择和优化

2.1、留出法（Hold-out）

留出法是机器学习中最常见的评估方法之一，它会从训练数据中保留出验证样本集，这部分数据不用于训练，而用于模型评估

使用留出法划分数据集需要注意：

2.2、交叉验证法（Cross Validation）

留出法的数据划分可能会带来偏差。在机器学习中，另外一种比较常见的评估方法是交叉验证法：K折交叉验证对K个不同分组训练的结果进行平均来减少方差

因此模型的性能对数据的划分就不那么敏感，对数据的使用也会更充分，模型评估结果更加稳定，可以很好地避免上述问题

使用交叉验证法划分数据集需要注意：

更多关于交叉验证法的介绍详见上篇：模型评估指标(一)

2.3、自助采样法（Bootstrap Sampling）

部分场景下，数据量较少，很难通过已有的数据来估计数据的整体分布。因为数据量不足时，计算的统计量反映不了数据分布，这时可以使用自助采样法

自助采样法是一种用小样本估计总体值的一种非参数方法，在进化和生态学研究中应用十分广泛。自助采样法通过有放回抽样生成大量的伪样本，通过对伪样本进行计算，获得统计量的分布，从而估计数据的整体分布

自助采样法的过程为

有了有效的模型评估方法，我们还需要量化的度量指标来精准评估与判断模型性能

单项分类问题评估指标主要有：准确率、精确率和召回率等，而这些指标都是基于混淆矩阵进行计算的

混淆矩阵（Confusion Matrix）可以直观地展示模型预测结果与实际标签之间的对应关系。它是一个表格矩阵&

关注