问题一、分析为什么平方损失函数不适用于分类问题,交叉熵损失函数不适用于回归问题。
平方损失函数:
平方损失函数可反映出模型的输出与实际结果之间的距离。对于分类问题,输出结果就是类别,每个标签之间的距离没有实际意义,计算结果也不能反映分类问题的最优化程度。
交叉熵函数主要用于衡量两个概率分布之间的差异程度。能够表示真是概率分布与预测分布概率之间的差异。公式为:
交叉熵损失函数对分类正确的结果更关注。平方损失函数如果用于分类任务,会导致正确分类和错误分类变得平均。但是显然,对于分类问题,错误分类结果并不重要。而对于回归问题就很有必要了。回归问题可以基于均方误差求得最优解。所以说,平均损失函数更适用于回归问题,交叉熵损失函数多适用于分类问题。
问题二、对于一个三分类问题,数据集的真实标签和模型的预测标签如下:
真实标签 | 1 | 1 | 2 | 2 | 2 | 3 | 3 | 3 | 3 |
预测标签 | 1 | 2 | 2 | 2 | 3 | 3 | 3 | 1 | 2 |
分别计算模型的精准率、召回率、F1值以及它们的宏平均和微平均。
分类结果的混淆矩阵:
真实情况 | 预测结果 | |
正例 | 反例 | |
正例 | TP(真正例) | FN(假反例) |
反例 | FP(假正例) | TN(真反例) |
精准率:预测类别为c中,预测正确的比例。
召回率:真实标签为c的样本中,预测结果也是c的占比。
F1值:
宏平均:
=5/9
=5/9
=5/9
微平均:是每个样本的性能指标的算术平均值。