神经网络与深度学习课堂作业（三）：深度学习视觉应用

weixin_46986649

于 2024-04-22 17:27:07 发布

阅读量912

点赞数 25

文章标签：深度学习神经网络人工智能

本文链接：https://blog.csdn.net/weixin_46986649/article/details/138081477

版权

一、评价指标

1. 算法评估相关概念：

TP（True Positive）：被正确地划分为正例的个数，即实际为正例、且被分类器划分为正例的实例数；

FP（False Positive）：被错误地划分为正例的个数，即实际为负例、但被分类器划分为正例的实例数；

FN（False Negative）：被错误地划分为负例的个数，即实际为正例、但被分类器划分为负例的实例数；

TN（True Negative）：被正确地划分为负例的个数，即实际为负例、且被分类器划分为负例的实例数；

P（精确率，Precision）： $TP/(TP+FP)$ ，标识“挑剔”的程度；

R（召回率，Recall）： $TP/(TP+FN)$ ，标识“通过”的程度，召回率越高，准确度越低；

精度（Accuracy）： $(TP+TN)/(TP+FP+TN+FN)$

精度（准确率）越高，召回率越低，P-R曲线如下图所示：

2. AP计算

mAP：均值平均准确率

$AP=\sum_{k=1}^{N}P(k)\Delta r(k)$ ，

其中N代表测试集中所有图片的个数，P(k)表示在能识别出k个图片的时候Precision的值，而Δr(k)则表示识别图片个数从k-1变化到k时（通过调整阈值）Recall值的变化情况。

每一个类别均可确定对应的AP；多类的检测中，取每个类AP的平均值，即为mAP

二、目标检测与YOLO

1. YOLO的网络结构

YOLO的网络结构包含24个卷积层和2个全连接层；其中前20个卷积层用来做预训练，后面4个是随机初始化的卷积层，和2个全连接层。YOLO的网络结构概略图如下：

2. 预训练与训练

YOLO先使用ImageNet数据集对前20层卷积网络进行预训练，然后使用完整的网络，在PASCAL VOC数据集上进行对象识别和定位的训练和预测；

训练中采用了drop out和数据增强来防止过拟合；

YOLO的最后一层采用线性激活函数（因为要回归bb位置），其它层都是采用Leaky ReLU激活函数：

$\phi (x)=\left\{\begin{matrix} x, & \textrm{if} \: x>0 \\ 0.1x,& \textrm{otherwise} \end{matrix}\right.$

三、语义分割与FCN

1. 语义分割

语义分割：找到同一画面中的不同类型目标区域

语义分割的目标：对图中每一个像素进行分类，得到对应标签

2. FCN网络结构

网络结构分为两个部分：全卷积部分和反卷积部分。全卷积部分借用了一些经典的CNN网络，并把最后的全连接层换成卷积，用于提取特征，形成热点图；反卷积部分则是将小尺寸的热点图上采样得到原尺寸的语义分割图像。

参考视频：

FCN网络结构详解(语义分割)_哔哩哔哩_bilibili

四、风格迁移

1. 风格迁移方法

首先，我们初始化合成图像，例如将其初始化成内容图像。该合成图像是样式迁移过程中唯一需要更新的变量，即样式迁移所需迭代的模型参数。

然后，我们选择一个预训练的卷积神经网络来抽取图像的特征，其中的模型参数在训练中无须更新。深度卷积神经网络凭借多个层逐级抽取图像的特征。我们可以选择其中某些层的输出作为内容特征或样式特征。

2. 损失函数

常用的损失函数由3部分组成：

（1）内容损失（content loss）：使合成图像与内容图像在内容特征上接近；

（2）样式损失（style loss）：令合成图像与样式图像在样式特征上接近；

（3）总变差损失（total variation loss）：有助于减少合成图像中的噪点。

最后，当模型训练结束时，输出风格迁移的模型参数，即得到最终的合成图像。

内容损失：

与线性回归中的损失函数类似，内容损失通过平方误差函数衡量合成图像与内容图像在内容特征上的差异。平方误差函数的两个输入均为extract_features函数计算所得到的内容层的输出。

def content_loss(Y_hat,Y):
    return F.mse_loss(Y_hat,Y)

样式损失：

样式损失也同样通过平方误差函数衡量合成图像与样式图像在样式上的差异。为了表达样式层输出的样式，我们先通过extract_features函数计算样式层的输出。

我们用一个格拉姆矩阵表达样式层输出的样式。需要注意的是，当样本的高(h)和宽(w)的值较大时，格拉姆矩阵中的元素容易出现较大的值。此外，格拉姆矩阵的高和宽皆为通道数c。为了让样式损失不受这些值的大小影响，下面定义的gram函数将格拉姆矩阵除以了矩阵中的元素的个数，即chw。

def gram(X):
    num_channels, n = X.shape[1],X.shape[2] * X.shape[3]
    X = X.view(num_channels, n)
    return torch.matmul(X, X.t()) / (num_channels * n)

自然地，样式损失的平方误差函数的两个格拉姆矩阵输入分别基于合成图像与样式图像的样式层输出。这里假设基于样式图像的格拉姆矩阵gram_Y已经预先计算好了。

def style_loss(Y_hat, gram_Y):
    return F.mse_loss(gram(Y_hat), gram_Y)

总变差损失：

有时候，我们学到的合成图像里面有大量高频噪点，即有特别亮或者特别暗的颗粒像素。一种常用的降噪方法是总变差降噪（total variation denoising）。假设 $x_{i,j}$ 表示坐标为(i,j)的像素值，降低总变差损失 $\sum _{i,j}\left | x_{i,j}-x_{i+1,j} \right | + \left | x_{i,j}-x_{i,j+1} \right |$ 能够尽可能地使邻近的像素值相似。

def tv_loss(Y_hat):
    return 0.5 * (F.l1_loss(Y_hat[:, :, 1:, :], Y_hat[:, :, :-1:, :]) + F.l1_loss(Y_hat[:, :, :, 1:], Y_hat[:, :, ::, :-1]))

weixin_46986649

关注

25
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
神经网络与深度学习课堂作业（三）：深度学习视觉应用

（True Positive）：被地划分为的个数，即实际为正例、且被分类器划分为正例的实例数；（False Positive）：被地划分为的个数，即实际为负例、但被分类器划分为正例的实例数；（False Negative）：被地划分为的个数，即实际为正例、但被分类器划分为负例的实例数；（True Negative）：被地划分为的个数，即实际为负例、且被分类器划分为负例的实例数；（精确率，Precision）：，标识“挑剔”的程度；（召回率，Recall）：，标识“通过”的程度，召回率越高，准确度越低；
复制链接

扫一扫