神经网络与深度学习总结（三）—深度学习视觉应用

最新推荐文章于 2024-08-10 20:32:14 发布

weixin_51120255

最新推荐文章于 2024-08-10 20:32:14 发布

阅读量46

点赞数

文章标签：深度学习神经网络人工智能

本文链接：https://blog.csdn.net/weixin_51120255/article/details/129911766

版权

一、数据集与评价指标

TP: 被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数

FP: 被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数

FN:被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数

TN: 被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例数

P(精确率）： TP/（TP+FP）

R(召回率）： TP/(TP+FN)。召回率越高，准确度越低。

二、目标检测与YOLO

目标检测问题

目标检测是在给定的图片中精确找到物体所在位置，并标注出物体的类别。物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，并且物体还可以是多个类别。

目标检测问题发展

R-CNN

SPP NET

Fast R-CNN

Faster R-CNN

最终实现 YOLO

YOLO 是一个集大成的方法，不了解之前的方法，很难掌握 YOLO 的思路。

三、目标检测实现

目标检测基本原理

很多时候图像里有多个我们感兴趣的目标，我们不仅想知道它们的类别，还想得到它们在图像中的具体位置。在计算机视觉里，我们将这类任务称为目标检测（object detection）或物体检测。目标检测在多个领域中被广泛使用。例如，在无人驾驶里，我们需要通过识别拍摄到的视频图像里的车辆、行人、道路和障碍的位置来规划行进线路。机器人也常通过该任务来检测感兴趣的目标。安防领域则需要检测异常目标，如歹徒或者炸弹。

边界框

在目标检测里，我们通常使用边界框（bounding box）来描述目标位置。边界框是一个矩形框，可以由矩形左上角的x和y轴坐标与右下角的x和y 轴坐标确定。我们根据下面的图的坐标信息来定义图中狗和猫的边界框。图中的坐标原点在图像的左上角，原点往右和往下分别为x轴和y轴的正方向。

交并比

刚刚提到某个锚框较好地覆盖了图像中的狗。如果该目标的真实边界框已知，这里的“较好”该如何量化呢？一种直观的方法是衡量锚框和真实边界框之间的相似度。我们知道，Jaccard系数Jaccard index）可以衡量两个集合的相似度。给定集合A和B，它们的Jaccard系数即二者交集大小除以二者并集大小。

四、语义分割

语义分割关注如何将图像分割成属于不同语义类别的区域。值得一提的是，这些语义区域的标注和预测都是像素级的。下图展示了语义分割中图像有关狗、猫和背景的标签。可以看到，与目标检测相比，语义分割标注的像素级的边框显然更加精细。

五、风格迁移

如果你是一位摄影爱好者，也许接触过滤镜。它能改变照片的颜色样式，从而使风景照更加锐利或者令人像更加美白。但一个滤镜通常只能改变照片的某个方面。如果要照片达到理想中的样式，经常需要尝试大量不同的组合，其复杂程度不亚于模型调参。在本节中，我们将介绍如何使用卷积神经网络自动将某图像中的样式应用在另一图像之上，即风格迁移。

方法

首先，我们初始化合成图像，例如将其初始化成内容图像。该合成图像是样式迁移过程中唯一需要更新的变量，即样式迁移所需迭代的模型参数。

然后，我们选择一个预训练的卷积神经网络来抽取图像的特征，其中的模型参数在训练中无须更新。深度卷积神经网络凭借多个层逐级抽取图像的特征。我们可以选择其中某些层的输出作为内容特征或样式特征。

六、人脸识别

构建神经网络

训练神经网络

运行神经网络

weixin_51120255

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络与深度学习总结（三）—深度学习视觉应用

很多时候图像里有多个我们感兴趣的目标，我们不仅想知道它们的类别，还想得到它们在图像中的具体位置。例如，在无人驾驶里，我们需要通过识别拍摄到的视频图像里的车辆、行人、道路和障碍的位置来规划行进线路。机器人也常通过该任务来检测感兴趣的目标。图中的坐标原点在图像的左上角，原点往右和往下分别为x轴和y轴的正方向。然后，我们选择一个预训练的卷积神经网络来抽取图像的特征，其中的模型参数在训练中无须更新。物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，并且物体还可以是多个类别。
复制链接

扫一扫