NNDL 作业2

最新推荐文章于 2024-07-13 23:05:26 发布

兮希NGC2237

最新推荐文章于 2024-07-13 23:05:26 发布

阅读量100

点赞数 2

文章标签：算法机器学习人工智能

本文链接：https://blog.csdn.net/weixin_62629319/article/details/133214111

版权

1.平方损失函数不适用于分类问题的原因。

平方损失函数：经常用在预测标签y为实数值的任务中，以下是平方损失函数的计算公式：

$L(y,f(x;\theta ))=\frac{1}{2}(y-f(x;\theta ))^{2}$

$y$ 是真实值， $f(x;\theta )$ 为预测值。

（1）计算层面：平方损失函数在计算过程中，是用预测值和真实值之间的差异进行平方。在分类问题中，真实值和预测值均为类别标签无法相减计算。

（2）误差层面：平方损失函数是对预测值和真实值之间的差异进行平方，这会导致对离群值非常敏感。对于分类问题，预测值通常是概率或者类别标签，一旦有一个点分错类，平方损失函数会放大预测值和真实值之间的差异，导致对分类错误的点惩罚过大。

并且，对于分类问题平方损失函数无法衡量数据点分类错误的程度，将分类问题的离散值（例如：0或1）映射到连续的数值上，导致损失函数的值无法直观地解释，数值上没有参考意义。

2.交叉熵损失函数不适用于回归问题的原因

交叉熵损失函数：假设样本标签 $y\in \left \{ 1.....C \right \}$ 为离散的类别，模型 $f(x;\theta )\in [0,1]^{c}$ 的输出为类别标签的条件分布概率，

$p(y=c|x;\theta )=f_{c}(x;\theta )$

并且满足： $f^{_{c}}(x;\theta )\in [0,1] , \sum_{c=1}^{c}f^{_{c}}(x;\theta )=1$

用一个C维的one-hot向量 $y$ 来表示样本标签，假设样本标签为 $k$ ，那么标签向量 $y$ 只有第 $k$ 维的值为1，其余值都为0。第 $c$ 维是类别的真实条件概率，假设样本类别为 $k$ ，那么它属于第 $k$ 类的概率为1,属于其他类的概率为0。标签的真实分布 $y$ 和模型预测分布 $f(x;\theta )$ 之间的交叉熵为：

$L(y,f(x;\theta ))=-y^{^{T}}logf(x;\theta )=-\sum_{c=1}^{c}y_{c}logf_{c}(x;\theta )$

（1）计算层面：它是基于概率的度量。当预测概率分布与真实标签的概率分布完全一致时，交叉熵损失函数取得最小值为0。当两个概率分布之间差异越大时，交叉熵损失函数的值越大。对于回归问题，预测值通常是连续的数值，而交叉熵损失函数的定义涉及到对数运算，这会导致无法直接应用于连续数值的预测。

（2）误差层面：交叉熵损失函数的定义假设了预测值和真实值之间的关系是分类问题中的概率分布，而在回归问题中，预测值和真实值之间的关系通常不是概率分布，对于连续值的差异度量不够敏感，无法准确地评估模型的损失。因此，交叉熵损失函数不适用于回归问题。

3.对于一个三分类问题，数据集的真实标签和模型的预测标签如下:

真实标签 1 1 2 2 2 3 3 3 3
预测标签 1 2 2 2 3 3 3 1 2

分别计算模型的精确率、召回率、F1值以及它们的宏平均和微平均。

混淆矩阵：

		预测类别
		$\hat{y}=c$	$\hat{y}\neq c$
真实类别	$y=c$	$TP$	$FN$
真实类别	$y\neq c$	$FP$	$TN$

TP：预测为 $c$ 实际为 $c$

FP：预测为 $c$ 实际不为 $c$

TN：预测不为 $c$ 实际不为 $c$

FN：预测不为 $c$ 实际为 $c$

精确率：

$p_{c}=\frac{TP_{c}}{TP_{c}+FP_{c}}$

召回率：

$R_{c}=\frac{TP_{c}}{TP_{c}+FN_{c}}$

F1值：

$F_{c}=\frac{(1+\beta ^{2})\times P_{c}\times R_{c}}{(\beta ^{2})\times P_{c}+R_{c}}$

宏平均：是每一类性能指标的算数平均值，也就是宏精确率，宏召回率，宏F值，其计算公式如下：

$p_{macro}=\frac{1}{C}\sum_{c=1}^{C}p_{c}$

$R_{macro}=\frac{1}{C}\sum_{c=1}^{C}R_{c}$

$F1_{macro}=\frac{2\times P_{macro}\times R_{macro}}{P_{macro}+R_{macro}}$

微平均：是每一个样本性能指标的算术平均值,将各个混淆矩阵对应元素平均，得到 $\bar{TP}$ 、 $\bar{FP}$ 、 $\bar{TN}$ 、 $\bar{FN}$ ，然后计算相应的平均值。

$p_{micro}=\frac{\bar{TP_{c}}}{\bar{TP_{c}}+\bar{FP_{c}}}$

$R_{micro}=\frac{\bar{TP_{c}}}{\bar{TP_{c}}+\bar{FN_{c}}}$

$F1_{micro}=\frac{2\times P_{micro}\times R_{micro}}{P_{micro}+R_{micro}}$

类别1混淆矩阵：

		预测类别
		$\hat{y}=c$	$\hat{y}\neq c$
真实类别	$y=c$	$TP_{1}=1$	$FN_{1}=1$
真实类别	$y\neq c$	$FP_{1}=1$	$TN_{1}=6$

精确率：

$p_{1}=\frac{TP_{1}}{TP_{1}+FP_{1}}=\frac{1}{2}$

召回率：

$R_{1}=\frac{TP_{1}}{TP_{1}+FN_{1}}=\frac{1}{2}$

F1值：

$F_{1}=\frac{(1+1^{2})\times P_{1}\times R_{1}}{(1 ^{2})\times P_{1}+R_{1}}=\frac{2\times \frac{1}{2}\times \frac{1}{2}}{\frac{1}{2}+\frac{1}{2}}=\frac{1}{2}$

类别2混淆矩阵：

		预测类别
		$\hat{y}=c$	$\hat{y}\neq c$
真实类别	$y=c$	$TP_{2}=2$	$FN_{2}=1$
真实类别	$y\neq c$	$FP_{2}=2$	$TN_{2}=4$

精确率：

$p_{2}=\frac{TP_{2}}{TP_{2}+FP_{2}}=\frac{2}{2+2}=\frac{1}{2}$

召回率：

$R_{2}=\frac{TP_{2}}{TP_{2}+FN_{2}}=\frac{2}{2+1}=\frac{2}{3}$

F1值：

$F_{2}=\frac{(1+1^{2})\times P_{2}\times R_{2}}{(1 ^{2})\times P_{2}+R_{2}}=\frac{2\times \frac{1}{2}\times \frac{2}{3}}{\frac{1}{2}+\frac{2}{3}}=\frac{4}{7}$

类别3混淆矩阵：

		预测类别
		$\hat{y}=c$	$\hat{y}\neq c$
真实类别	$y=c$	$TP_{3}=2$	$FN_{3}=2$
真实类别	$y\neq c$	$FP_{3}=1$	$TN_{3}=4$

精确率：

$p_{3}=\frac{TP_{3}}{TP_{3}+FP_{3}}=\frac{2}{2+1}=\frac{2}{3}$

召回率：

$R_{3}=\frac{TP_{3}}{TP_{3}+FN_{3}}=\frac{2}{2+2}=\frac{1}{2}$

F1值：

$F_{3}=\frac{(1+1^{2})\times P_{3}\times R_{3}}{(1 ^{2})\times P_{3}+R_{3}}=\frac{2\times \frac{2}{3}\times \frac{1}{2}}{\frac{2}{3}+\frac{1}{2}}=\frac{4}{7}$

宏平均：

$p_{macro}=\frac{1}{C}\sum_{c=1}^{C}p_{c}=\frac{1}{3}(\frac{1}{2}+\frac{1}{2}+\frac{2}{3})=\frac{5}{9}$

$R_{macro}=\frac{1}{C}\sum_{c=1}^{C}R_{c}=\frac{1}{3}(\frac{1}{2}+\frac{2}{3}+\frac{1}{2})=\frac{5}{9}$

$F1_{macro}=\frac{2\times P_{macro}\times R_{macro}}{P_{macro}+R_{macro}}=\frac{2\times \frac{5}{9}\times \frac{5}{9}}{\frac{5}{9}+\frac{5}{9}}=\frac{5}{9}$

微平均：

$p_{micro}=\frac{\bar{TP_{c}}}{\bar{TP_{c}}+\bar{FP_{c}}}=\frac{(1+2+2)/3}{(1+2+2)/3+(1+2+1)/3}=\frac{5}{9}$

$R_{micro}=\frac{\bar{TP_{c}}}{\bar{TP_{c}}+\bar{FN_{c}}}=\frac{(1+2+2)/3}{(1+2+2)/3+(1+1+2)/3}=\frac{5}{9}$

$F1_{micro}=\frac{2\times P_{micro}\times R_{micro}}{P_{micro}+R_{micro}}=\frac{2\times \frac{5}{9}\times \frac{5}{9}}{\frac{5}{9}+\frac{5}{9}}=\frac{5}{9}$

兮希NGC2237

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
NNDL 作业2

（2）误差层面：交叉熵损失函数的定义假设了预测值和真实值之间的关系是分类问题中的概率分布，而在回归问题中，预测值和真实值之间的关系通常不是概率分布，对于连续值的差异度量不够敏感，无法准确地评估模型的损失。对于分类问题，预测值通常是概率或者类别标签，一旦有一个点分错类，平方损失函数会放大预测值和真实值之间的差异，导致对分类错误的点惩罚过大。并且，对于分类问题平方损失函数无法衡量数据点分类错误的程度，将分类问题的离散值（例如：0或1）映射到连续的数值上，导致损失函数的值无法直观地解释，数值上没有参考意义。
复制链接

扫一扫