计算机视觉/图像处理

最新推荐文章于 2024-04-29 14:12:20 发布

平行世界里的我

最新推荐文章于 2024-04-29 14:12:20 发布

阅读量1.3k

点赞数 1

分类专栏：传统CV图像处理文章标签：深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_45823221/article/details/120790155

版权

传统CV图像处理专栏收录该内容

5 篇文章 0 订阅

订阅专栏

图像处理输入是图像，输出是图像，常见的任务包括：降噪，超分辨，去模糊，去马赛克，去雾去雨去栅栏去云等等的去X系列，再对焦，图像补全，压缩感知，计算成像（MRI, CT, Light field, ...），等等，外加一些图像增强的任务，比如锐化之类的。

而计算机视觉输入是图像，输出是知识。常见的任务：各种识别（人脸，猫，狗，交通灯，疾病，异常，造假....），图像转文字（image captioning，etc），图像转语音，转特征值，目标定位，追踪，等等

当前，在图像处理领域，哪个方向比较火？或者比较好做？

第一个重境界：图像识别：猫狗分类、人脸识别、植物病变

第二重境界：物体检测：R - CNN，这个网络不仅可以告诉你分类，还可以告诉你目标物体的坐标；YOLO算法，无人驾驶

第三重境界：图像切割：U型网络，轮廓

第四重境界：聚类：推荐，以图搜图，淘宝推荐服装

第五层境界：降噪，auto-encoder；GAN

第六重境界：图像风格迁移，GAN，CycleGAN

第七重境界：GAN

preview

Browse the State-of-the-Art in Machine Learning | Papers With Code

图像分类：分类和识别，我一直觉得一样。如果只有一个类，则应使用术语“识别”，而多类识别的任务通常称为“分类”。所以这一块主要学习这些新的网络。主要用到的数据集是ImageNet。

图像分类与检测综述 GitHub：图像分类最全资料集锦

图像识别模型一般包括底层特征学习、特征编码、空间约束、分类器设计、模型融合等几个阶段。

1). 底层特征提取: 通常从图像中按照固定步长、尺度提取大量局部特征描述。常用的局部特征包括SIFT(Scale-Invariant Feature Transform, 尺度不变特征转换) [1]、HOG(Histogram of Oriented Gradient, 方向梯度直方图) [2]、LBP(Local Bianray Pattern, 局部二值模式) [3] 等，一般也采用多种特征描述子，防止丢失过多的有用信息。

这一部分很多分类中并没有做，因为数据集一般是给定的，所以很少去处理给定的数据集，就一般对图像进行归一化，然后分为训练集测试集，进行onehot编码。感觉传统的一些图像处理可能会用到这方面，比如车位线检测。

【Keras】从两个实际任务掌握图像分类 - Madcola - 博客园

2). 特征编码: 底层特征中包含了大量冗余与噪声，为了提高特征表达的鲁棒性，需要使用一种特征变换算法对底层特征进行编码，称作特征编码。常用的特征编码包括向量量化编码 [4]、稀疏编码 [5]、局部线性约束编码 [6]、Fisher向量编码 [7] 等。

3). 空间特征约束: 特征编码之后一般会经过空间特征约束，也称作特征汇聚。特征汇聚是指在一个空间范围内，对每一维特征取最大值或者平均值，可以获得一定特征不变形的特征表达。金字塔特征匹配是一种常用的特征聚会方法，这种方法提出将图像均匀分块，在分块内做特征汇聚。

4). 通过分类器分类: 经过前面步骤之后一张图像可以用一个固定维度的向量进行描述，接下来就是经过分类器对图像进行分类。通常使用的分类器包括SVM(Support Vector Machine, 支持向量机)、随机森林等。而使用核方法的SVM是最为广泛的分类器，在传统图像分类任务上性能很好。

这种方法在PASCAL VOC竞赛中的图像分类算法中被广泛使用 [18]。NEC实验室在ILSVRC2010中采用SIFT和LBP特征，两个非线性编码器以及SVM分类器获得图像分类的冠军 [8]。

Alex Krizhevsky在2012年ILSVRC提出的CNN模型 [9] 取得了历史性的突破，效果大幅度超越传统方法，获得了ILSVRC2012冠军，该模型被称作AlexNet。这也是首次将深度学习用于大规模图像分类中。从AlexNet之后，涌现了一系列CNN模型，不断地在ImageNet上刷新成绩，如下图展示。随着模型变得越来越深以及精妙的结构设计，Top-5的错误率也越来越低，降到了3.5%附近。而在同样的ImageNet数据集上，人眼的辨识错误率大概在5.1%，也就是目前的深度学习模型的识别能力已经超过了人眼。小猪学AI—图像分类之猫狗识别

物体检测：最先进的方法可以分为两种主要类型：一阶段方法和二阶段方法。一级方法优先考虑推理速度，示例模型包括 YOLO、SSD 和 RetinaNet。两阶段方法优先考虑检测精度，示例模型包括 Faster R-CNN、Mask R-CNN 和 Cascade R-CNN。最流行的基准测试是 MSCOCO 数据集。模型通常根据平均平均精度指标进行评估。

图像分割：语义分割或图像分割是将属于同一对象类的图像部分聚类在一起的任务。它是像素级预测的一种形式，因为图像中的每个像素都是根据类别进行分类的。此任务的一些示例基准是 Cityscapes、PASCAL VOC 和 ADE20K。模型通常使用 Mean Intersection-Over-Union (Mean IoU) 和 Pixel Accuracy 指标进行评估。

去噪：

图像生成：

平行世界里的我

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
计算机视觉/图像处理

图像处理输入是图像，输出是图像，常见的任务包括：降噪，超分辨，去模糊，去马赛克，去雾去雨去栅栏去云等等的去X系列，再对焦，图像补全，压缩感知，计算成像（MRI, CT, Light field, ...），等等，外加一些图像增强的任务，比如锐化之类的。而计算机视觉输入是图像，输出是知识。常见的任务：各种识别（人脸，猫，狗，交通灯，疾病，异常，造假....），图像转文字（image captioning，etc），图像转语音，转特征值，目标定位，追踪，等等当前，在图像处理领域，哪个方向比较...
复制链接

扫一扫

专栏目录