![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
CV
文章平均质量分 55
Gao+Ling
爱学习
展开
-
VQA 2.0数据集的学习和使用过程
该文章记录本人第一次对VQA 2.0数据集进行研究的全过程。某博主的指点,帮了我不少。非常感激!VQA任务就是给定一张图片和一个问题,模型要根据给定的输入来进行回答。很明显,VQA任务的输入有两个(image和question),对于如何提取image的feature,这里就不在赘述, 可以使用CNN提取特征的方式,CNN可以选择Resnet、VGG等骨干网络(去除pooling和fc层)。对于如何提取question的特征,一般的做法是,由于question本身是文字,需要转换为对应的向量形式。原创 2023-03-31 13:06:24 · 4615 阅读 · 1 评论 -
CV经典网络DenseNet的学习
论文:Densely Connected Convolutional Networks代码链接:Dense NetMXNet版本代码(有ImageNet预训练模型)DenseNet的优点:1、减轻了vanishing-gradient(梯度消失)2、加强了feature的传递3、更有效地利用了feature4、一定程度上较少了参数数量--------------------------- dense block结构图 ---------------------------在传统的卷积神原创 2021-10-24 15:15:19 · 2801 阅读 · 0 评论 -
课程学习 CV 北京邮电大学 鲁鹏(笔记九:实例分割)
实例分割的经典网络Mask R-CNN在Faster R-CNN 的基础上,加上Mask模块,成为Mask R-CNNMask R-CNN的效果也可以做关键点检测,姿势检测。其他开源框架原创 2021-10-12 18:58:00 · 115 阅读 · 0 评论 -
课程学习 CV 北京邮电大学 鲁鹏(笔记八:目标检测)
单目标的目标检测多目标的目标检测原创 2021-10-12 18:45:19 · 108 阅读 · 0 评论 -
课程学习 CV 北京邮电大学 鲁鹏(笔记七:语义分割)
语义分割与实例分割的区别语义分割的最初思路(滑动窗口)这个思路存在效率低的问题。语义分割的新思路(全卷积)存在的问题如上图的左下角所示。因此提出下采样+上采样结合的思路。上采样方法1:近邻采样和bed of nails如下图,但一般不采用这种方式。上采样方法2:Max Unpooling这些方法都是写“死了”的,没有学习的一个过程。上采样方法3:转置卷积下图为卷积的过程下图为转置卷积的过程转置卷积与反卷积还是有区别的。反卷积的结果与卷积之前的结果是一样的。但是转.原创 2021-10-12 10:31:55 · 130 阅读 · 0 评论 -
课程学习 CV 北京邮电大学 鲁鹏(笔记六:CV经典网络讲解 之 ResNet)
ResNetResNet又名残差神经网络,指的是在传统卷积神经网络中加入残差学习(residual learning)的思想,解决了深层网络中梯度弥散和精度下降(训练集)的问题,使网络能够越来越深,既保证了精度,又控制了速度。研究背景随着网络的加深,梯度弥散问题会越来越严重,导致网络很难收敛甚至无法收敛。梯度弥散问题目前有很多的解决办法,包括网络初始标准化,数据标准化以及中间层的标准化(Batch Normalization)等。但是网络加深还会带来另外一个问题:随着网络加深,出现训练集准确率下降的现原创 2021-10-11 22:14:14 · 229 阅读 · 0 评论 -
课程学习 CV 北京邮电大学 鲁鹏(笔记五:CV经典网络讲解 之 GoogLeNet)
GoogLeNetZFNet论文:Going Deeper with ConvolutionsInception单元结构Inception 最初版本的主要思想是利用不同大小的卷积核实现不同尺度的感知,网络结构图如下:Inception Module基本组成结构有四个成分。11卷积,33卷积,55卷积,33最大池化。最后对四个成分运算结果进行通道上组合,这就是Naive Inception的核心思想:利用不同大小的卷积核实现不同尺度的感知,最后进行融合,可以得到图像更好的表征。但是Naive I原创 2021-10-11 19:30:55 · 180 阅读 · 0 评论 -
课程学习 CV 北京邮电大学 鲁鹏(笔记四:CV经典网络讲解 之 VGG)
VGGVGG论文:Very deep convolutional networks for large-scale image recognitionVGGNet由牛津大学的视觉几何组(Visual Geometry Group)提出,主要贡献在于证明了使用3x3的小卷积核,增加网络深度,可以有效提升模型性能,并且对于其他数据集也有很好的泛化性能。VGG的结构简洁,整个网络都使用同样大小的卷积核尺寸(3x3)和最大池化尺寸(2x2)。到目前为止,VGG仍然被用来提取图像特征。定义卷积函数原创 2021-10-11 15:43:30 · 377 阅读 · 0 评论 -
课程学习 CV 北京邮电大学 鲁鹏(笔记三:CV经典网络讲解 之 ZFNet)
ZFNetZFNet论文:Visualizing and Understanding Convolutional NetworksZFNet对AlexNet的网络结构进行了细微调整。但是这篇论文另一个重要的贡献是提出了对卷积神经网络中间层可视化的方法。代码展示import timeimport torchfrom torch import nn, optimimport torchvisiondevice = torch.device('cuda' if torch.cuda.is_a原创 2021-10-11 13:49:00 · 101 阅读 · 0 评论 -
课程学习 CV 北京邮电大学 鲁鹏(笔记二:CV经典网络讲解 之 AlexNet)
CV经典网络讲解Alexnet论文:Imagenet classification with deep convolutional neural networks原创 2021-10-11 11:26:28 · 133 阅读 · 0 评论 -
课程学习 CV 北京邮电大学 鲁鹏(笔记一:杂记)
杂记原创 2021-10-11 11:15:18 · 138 阅读 · 0 评论 -
图像基本知识及常用网络
以下是我自己总结的,还有不足的地方。正在不断修改和完善。推荐一个总结得更好的链接:概览主要语义分割网络,FCN、UNet、SegNet、DeepLab 等概览主要语义分割网络图像基本组成像素 pixel灰度值 intensity (一个pixel的最基本特征)一张image可以看做一个矩阵,矩阵的每一个元素就是一个像素,每个元素上的值就是灰度值图像处理中常见的任务1. 图像分类给定一张输入图像,图像分类的任务是判断该图像属于哪类,如果是多任务分类,可以用于分类该图像包含哪个类别。所以转载 2021-09-25 21:51:23 · 708 阅读 · 0 评论