小灰狼@花花-CSDN博客

原创 Zero-shot Learning 综述（总）——2018年及以前

zero-shot learning在零次学习（ZSL）中，训练集中的样本标签与测试集的标签是不相交的，即在训练时是没有见过测试集类别的样本的，而零次学习任务就是要识别出这些训练时没见过的类别的样本。既然要认出没见过的对象，那就要教会模型学习到更“本质”的知识，并且将这些知识“举一反三”，从已见过的类别（seen）迁移到没见过的类别（unseen）。在具体的实现中，模型会使用一层语义嵌入层，作为seen类和unseen类的迁移桥梁或者说中间表示，将seen类的知识迁移到unseen类，教会模型”举一反三

2021-05-08 15:14:14 933

原创 Zero-shot Learning 综述4

6. 直推式学习（Transductive Zero-shot Learning）所谓直推式学习，即在ZSL中，训练模型的时候，我们可以拿到测试集的数据，只是不能拿到测试集的样本的标签，因此我们可以利用测试集数据，得到一些测试集类别的先验知识。（上文中的DMaP也是直推式学习）典型文章：Semi-supervised Vocabulary-informed Learning (SSVoc)-2016 CVPR当前的ZSL有以下几个缺陷：ZSL 假设目标类不能分为源类（二者交集为空），反之亦然

2021-04-29 15:39:53 1004 1

原创 ZSL 数据集

1. AWAhttps://cvml.ist.ac.at/AwA/由50种动物类别的30475张图像组成，每张图像具有6个预提取的特征表示。其他特征：•彩色直方图功能（124M）：AwA-features-cq.tar.bz2•本地自相似特征（30M）：AwA-features-lss.tar.bz2•PyramidHOG（PHOG）功能（28M）：AwA-features-phog.tar.bz2•SIFT功能（44M）：AwA-features-sift.tar.bz2.

2021-04-27 15:19:24 1917

原创 Zero-shot Learning 综述3

5. ZSL中存在的问题1）领域漂移问题（domain shift）由于两个数据集有不同且可能不相关的类，类的底层数据分布不同，因此低级特征空间和语义空间之间的“理想”投影函数也不同，使用从辅助数据集/域学习的投影函数，而不对目标数据集/域进行任何适应，会导致未知的偏移/偏差。解决：SAE, GAN，见下文。在不同的类别中，视觉特征的表现可能会不一样。例如像这篇文章中举的例子，如图，斑马和猪都有一个属性是“有尾巴”，而这两者的尾巴在视觉特征中却相去甚远。如果斑马是训练集，而猪是测试集，那么.

2021-04-26 17:48:41 808

原创 Zero-shot Learning 综述2

3. 非线性映射典型文章：Latent Embeddings for Zero-Shot Classification (LatEm)-2016 CVPR通过一个隐变量，将SJE模型扩展为非线性学习线性兼容函数并不特别适合于具有挑战性的细粒度分类问题。对于细粒度分类，需要一个能够自动将具有相似属性的对象分组在一起的模型，然后为每个组学习一个单独的兼容性模型。例如，可以分别学习两种不同的线性函数来区分棕色翅膀的蓝鸟和其他蓝色翅膀的蓝鸟。主要贡献：提出学习线性模型的集合，同时允许每个图像类.

2021-04-26 13:54:14 725

原创 Zero-shot Learning 综述1

在零次学习（ZSL）中，训练集中的样本标签与测试集的标签是不相交的，即在训练时是没有见过测试集类别的样本的，而零次学习任务就是要识别出这些训练时没见过的类别的样本。既然要认出没见过的对象，那就要教会模型学习到更“本质”的知识，并且将这些知识“举一反三”，从已见过的类别（seen）迁移到没见过的类别（unseen）。在具体的实现中，模型会使用一层语义嵌入层，作为seen类和unseen类的迁移桥梁或者说中间表示，将seen类的知识迁移到unseen类，教会模型”举一反三“。而这个语义嵌入层具体会是对类别的一些

2021-04-25 11:46:04 963

原创深度学习中的Normalization-附参考文献ris格式

参考文献ris格式下载链接：https://download.csdn.net/download/xiaohuilang6/155431381. Batch Normalization：（2015）https://arxiv.org/pdf/1502.03167.pdf2.Layer Normalization：（2016）https://arxiv.org/pdf/1607.06450v1.pdfLN用于RNN效果比较明显，但是在CNN上，不如BN。3.Instance..

2021-03-03 14:52:29 1591 1

原创深度学习框架-Backbone汇总-附参考文献ris格式

参考文献Ris下载链接：https://download.csdn.net/download/xiaohuilang6/155429621. LeNet5：(1998)https://ieeexplore.ieee.org/document/726791 Name Output Kernel-Size Padding Stride Channel Input

2021-03-03 14:36:34 1452 1

原创 TextBoxes与TextBoxes++ OCR场景文字检测

TextBoxes提出了一种端到端可训练的快速场景文本检测器，名为TextBoxes，它可以在单个网络正向通道中以高精度和高效率检测场景文本，除标准非最大抑制外，不涉及后处理。TextBoxes在文本定位精度方面优于其他竞争方法，并且速度更快，每张图片只需0.09s便可快速实现。此外，与文本识别器相结合，TextBoxes明显优于最先进的文字识别和端到端文本识别任务。网络结构：72 = 12 * 6, 6为2+4它继承了流行的VGG-16体系结构（Simonyan和Zisserman.

2020-07-20 10:51:58 942

原创 EAST OCR目标检测及源码

EAST: An Efficient and Accurate Scene Text Detector用于场景文本检测的先前方法已经在各种基准测试中获得了良好的性能。然而，在处理具有挑战性的场景时，即使配备了深度神经网络模型，通常也会达不到很好性能，因为整体性能取决于pipline中多个阶段和组件的相互作用。EAST提出了一个简单而强大的pipline，可以在自然场景中产生快速准确的文本检测。算法流程直接预测完整图像中任意方向和四边形形状的单词或文本行，消除了使用单个神经网络的不必要的中间步骤（例.

2020-07-17 11:02:17 1239

原创 CTPN OCR目标检测及源码

CTPN-Detecting Text in Natural Image with Connectionist Text Proposal NetworkCTPN，它能够准确定位自然图像中的文本行。CTPN直接在卷积特征图中的一系列细粒度文本建议中检测文本行。CTPN提出了一个垂直锚点机制，联合预测每个固定宽度提议的位置和文本/非文本分数，大大提高了定位精度。序列建议网络通过循环神经网络自然地连接起来，该网络无缝地结合到卷积网络中，从而形成端到端的可训练模型。这使得CTPN可以探索丰富的图像上下文.

2020-07-16 17:30:02 891

原创目标检测：从overfeat到Fast R-CNN

以下内容摘自斯坦福cs231n目标检测课程：计算机视觉任务：ImageNet 分类和定位任务：Idea #1：定位问题视为回归问题实现步骤：1. 训练（或下载）一个分类模型（AlexNet, VGG, Inception）2. 添加新的全连接层用作“回归”3. 仅训练“回归”模块，SGD，L2 Loss4. 测试时加入“分类”和“回归”回归分为两种：独立于类别的回归：Class agnostic （4 numbers / per box

2020-06-09 16:12:00 633

原创 Faster R-CNN 基本原理及网络模型

Faster R-CNNFaster R-CNN主要贡献是提出RPN网络，用于替代Selective Search或其他的图像处理分割算法，实现端到端的训练（end-to-end）。1.卷积层后插入RPNRPN经过训练后直接产生Region Proposal，无需单独产生Region Proposal。2. RPN后接ROI Pooling和分类层、回归层，同Fast R-CNN。候选区域（anchor）特征图可以看做一个尺度51*39的256通道图像，对于该图像的每..

2020-06-09 15:31:20 2494

原创 SSD: The Single Shot Detector

比YOLO: You Only Look Once 还要快，还要精确。保证速度的同时，其结果的 mAP 可与使用 region proposals 技术的方法（如 Faster R-CNN）相媲美。为了得到高精度的检测结果，在不同层次的 feature maps 上去 predict object、box offsets，同时，还得到不同 aspect ratio 的 predictions。...

2020-01-08 10:39:59 337

原创 R-FCN: Object Detection via Region-based Fully Convolutional Networks

整个R-FCN的结构一个base的conv网络如ResNet101, 一个RPN（Faster RCNN来的）,一个position sensitive的prediction层，最后的ROI pooling+投票的决策层。R-FCN的idea出发点（关键思想）分类需要特征具有平移不变性，检测则要求对目标的平移做出准确响应。现在的大部分CNN在分类上可以做的很好，但用在检测上效果不佳...

2020-01-03 14:27:58 360

原创 RetinaNet 理论与代码详解

RetinaNet 是来自Facebook AI Research 团队2018年的新作，在当前的目标检测领域是最强的网络(速度/精度/复杂度)。下面两张是基于COCO 本地测试集的实验数据:主要贡献：在One stage中，detector直接在类别不平衡（负样本很多，正样本很少）中进行分类和回归，直接输出bbox和类别，原有的交叉熵损失无法处理这种不平衡，导致训练不充...

2020-01-02 14:20:42 4738 14

原创 FPN 特征金字塔网络

FPN（feature pyramid networks）特征金字塔是多尺度目标检测系统中的一个基本组成部分。近年来深度学习目标检测却有意回避这一技巧，部分原因是特征金字塔在计算量和用时上很敏感（一句话，太慢）。这篇文章，作者利用了深度卷积神经网络固有的多尺度、多层级的金字塔结构去构建特征金字塔网络。使用一种自上而下的侧边连接，在所有尺度构建了高级语义特征图，这种结构就叫特征金字塔网络（FPN...

2019-12-16 17:50:16 1353

原创 YOLO V3 源码分析

在输入320×320的图片后，YOLOv3能在22毫秒内完成处理，并取得28.2mAP的成绩。它的精度和SSD相当，但速度要快上3倍。和旧版数据相比，v3版进步明显。在Titan X环境下，YOLOv3的检测精度为57.9AP5057.9AP50，用时51ms；而RetinaNet的精度只有57.5AP5057.5AP50，但却需要198ms，相当于YOLOv3的3.8倍。以下原文翻译：...

2019-12-16 12:03:51 567

原创 YOLO V2

YOLOv2是YOLOv1的改进，在保证速度的同时mAP更高，并保持着自己作为one-stage方法的优势（1）Batch NormalizationBatch Normalization可以提升模型收敛速度，而且可以起到一定正则化效果，降低模型的过拟合。在YOLOv2中，每个卷积层后面都添加了Batch Normalization层，并且不再使用droput。使用Batch Normal...

2019-11-08 16:02:52 266

原创 YOLO模型详解

YOLO将物体检测作为一个回归问题进行求解，输入图像经过一次inference，便能得到图像中所有物体的位置和其所属类别及相应的置信概率。而rcnn/fast rcnn/faster rcnn将检测结果分为两部分求解：物体类别（分类问题），物体位置即bounding box（回归问题）。YOLO检测网络包括24个卷积层和2个全连接层，如下图所示。（YOLO网络借鉴了GoogLeNet分类网络结...

2019-11-07 14:02:37 4778

翻译 Deep Learning 4 -正则化

Deep Learning 4 -正则化（防止过拟合）参考自：http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=DeepLearning&doc=exercises/ex5/ex5.html数据数据地址：ex5Data.zip数据包含两个数据集，一个用作线性回归，一个用作逻辑回归。同时也...

2015-10-21 17:34:25 2302

翻译 Deep Learning 3 -逻辑回归和牛顿法

Deep Learning 3 -逻辑回归和牛顿法参考自：http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=DeepLearning&doc=exercises/ex4/ex4.html数据数据地址：ex4Data.zip这个练习中，假设一高校有一数据集，代表了40个录取的学生和40个未...

2015-10-21 17:16:54 2348

翻译 Deep Learning 2 - 多元线性回归

Deep Learning 2 - 多元线性回归参考自：http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=DeepLearning&doc=exercises/ex3/ex3.html数据下载ex3Data.zip,这是一个数据集，波兰的房屋价格。输出yi是价格，输入xi是生活区域和房间数目

2015-10-20 11:09:15 712

翻译 DeepLearning 1 - 线性回归

DeepLearning 1 - 线性回归参考自：http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=DeepLearning&doc=exercises/ex2/ex2.html数据数据地址：ex2Data.zip。该文件包含了2到8岁之间的男孩的身高测量。 y值是高度（单位：m），x值是与其相

2015-10-19 17:05:37 499

xiaohuilang6的博客