一、MSE代码手动实现
(一)导入相关库
NumPy 是 Python 语言的一个第三方库,支持大量高维度数组与矩阵运算。此外,NumPy 也针对数组运算提供大量的数学函数。机器学习涉及到大量对数组的变换和运算,NumPy 就成了必不可少的工具之一。
import numpy as np
(二)计算均方误差损失函数
参数:
- y_true:真实值的数组,可以是一维或多维
- y_pred:预测值的数组,形状应与y_true相同
返回:
- loss:计算得到的loss值
def mse_loss(y_true,y_pred):
#计算真实值和预测值之间的差异
diff=y_true-y_pred
#计算差值的平方
sq_diff=np.square(diff)
#计算均方误差,即平方差的平均值
#使用np.mean计算平均值,axis=0表示沿着第一个轴(通常是样本维度)计算
loss=np.mean(sq_diff,axis=0)
return loss
(三)示例使用
y_true=np.arrray([1,2,3,4])
y_pred=np.array([1.5,2.1,2.9,4.2])
loss=mse_loss(y_true,y_pred)
print("MSE Loss:",loss)
二、Pytorch中MSELoss函数的接口
该函数默认用于计算两个输入对应元素差值平方和的均值。具体地,在深度学习中,可以使用该函数用来计算两个特征图的相似性。
torch.nn.MSELoss(size_average=None, reduce=None, reduction=‘mean’)
(一)参数
- 当reduce=True时,若size_average=True,则返回一个batch中所有样本损失的均值,结果为标量。注意,对于MESLoss函数来说,首先对该batch中的所有样本损失进行逐元素均值操作,然后对得到N个值再进行均值操作即得到返回值(假设批大小为N,即该batch中共有N个样本)
- 当reduce=True时,若size_average=False,则返回一个batch中所有样本损失的和,结果为标量。注意,对于MESLoss函数来说,首先对该batch中的所有样本损失进行逐元素求和操作,然后对得到N个值再进行求和操作即得到返回值(假设批大小为N,即该batch中共有N个样本)
- 当reduce=False时,则size_average参数失效,即无论size_average参数为False还是True,效果都是一样的。此时,函数返回的是一个batch中每个样本的损失,结果为向量。
- reduction参数包含了reduce和size_average参数的双重含义,这也是为什么reduce和size_average参数将在后续版本中被弃用的原因。
(二)使用示例
首先假设有三个数据样本分别经过神经网络运算,得到三个输出与其标签分别是:
y_pre = torch.Tensor([[1, 2, 3],
[2, 1, 3],
[3, 1, 2]])
y_label = torch.Tensor([[1, 0, 0],
[0, 1, 0],
[0, 0, 1]])
当reduction=‘none’时,相当于reduce=False;
criterion1 = nn.MSELoss(reduction="none")
loss1 = criterion1(x, y)
print(loss1)
输出结果为:
tensor([[0., 4., 9.],
[4., 0., 9.],
[9., 1., 1.]])
当reduction=‘sum’时,相当于reduce=True且size_average=False;
criterion2 = nn.MSELoss(reduction="mean")
loss2 = criterion2(x, y)
print(loss2)
输出结果为:
tensor(4.1111)
当reduction=‘mean’时,相当于reduce=True且size_average=True;
criterion3 = nn.MSELoss(reduction="sum")
loss3 = criterion3(x, y)
print(loss3)
输出结果为:
tensor(37.)
(三)反向传播
一般在反向传播时,都是先求loss,再使用loss.backward()求loss对每个参数 w_ij和b的偏导数(也可以理解为梯度)。但是只有标量才能执行backward()函数,因此在反向传播中reduction不能设为"none"。
- 若设置为"sum",则有Loss=loss_1+loss_2+loss_3,表示总的Loss由每个实例的loss_i构成,在通过Loss求梯度时,将每个loss_i的梯度也都考虑进去了。
- 若设置为"mean",则相比"sum"相当于Loss变成了Loss*(1/i),这在参数更新时影响不大,因为有学习率a的存在。
如果只想在batch上做平均,可以这样写:
loss_fn = torch.nn.MSELoss(reduction="sum")
loss = loss_fn(pred, y) / pred.size(0)