2018年10月_whitenightwu

原创 RNN--长短期记忆(Long Short Term Memory, LSTM)

长短期记忆(Long Short Term Memory, LSTM) 是一种 RNN 特殊的类型，可以学习长期依赖信息。记住长期的信息在实践中是 LSTM 的默认行为，而非需要付出很大代价才能获得的能力！在标准的 RNN 中，这个重复的模块只有一个非常简单的结构，例如一个 tanh 层。LSTM 同样是这样的结构，但是重复的模块拥有一个不同的结构，重复模块包含四个交互的gate。LS...

2018-10-31 10:33:43 2126

原创 RNN--综述

RNN 递归神经网络，即循环神经网络，Recurrent Neural Network，RNN。如何学习RNN 通过前期对RNN/LSTM的基本知识学习和语音系统方面的RNN应用学习，完成对LSTM的基本计算框架的分析和基本应用分析。具体要求如下： 1）LSTM基本原理分析。 2）LSTM构成形式分析，包括LSTM变种结构分析，基本要求包括共性特征分析、异性特征分析、基础单...

2018-10-31 10:29:20 1693

原创图像处理--模板匹配

模板匹配首先模板不是用来精确定位的，只能用来粗定位。先粗定位，然后在你的当前图中扣取和模板一样大小的区域，然后再进行精确定位。问题1 对于有缩放和旋转的目标你们是怎么定位的呢？轮廓；匹配；模板匹配问题2 用ORB特征匹配，怎么确定匹配到的就是我的模板图像啊？匹配后的区域进行相减或者算相似度。两图相减，注意两图的大小要一样，可现在大小就是不一样，所以我才用的ORB...

2018-10-31 09:57:54 1188

原创图像处理--常见的图片失真现象

常见的图片失真现象 1）ringing artifact 振铃效应如下图，左边的图是无振铃效应的高清图片的物体边缘，可以看到前后景交界的地方是很分明的；而右边的图则有振铃效应，可以看到边缘地方产生了“涟漪”一样的过渡效果（灰-黑-白-淡灰）。 2）blocking artifact blocking artifact就是在图像上会出现一些“方格”的效果，类似于“马赛克”的情况，...

2018-10-31 09:54:51 18855

原创图像处理--双线性插值

双线性插值如下图，中间点P是待插值的点，其中f(x)在我们这里是位于点x处的像素值。

2018-10-31 09:51:15 346

原创图像处理--图像与秩

图像与秩问题：如何界定一个图像或一个物体具有低秩属性？具有高秩属性的图像，如存在缺失现象，应如何恢复，现有何方法可以解决？回答：在图像处理问题中，图像的秩可以简单理解为图像所包含的信息丰富程度，图像由于局部分块之间的相似性、重复性，往往具有低秩的属性；图像的秩比较高，可能是因为图像噪声的影响，通过低秩的限制，应该能够很好的达到去噪的效果。...

2018-10-31 09:48:09 1433

原创图像处理--卷积与滤波器的联系

卷积与滤波器的联系(??) 吴恩达解释了如何实现卷积算子（convolution operator），并展示了它如何在图像中检测边缘。他还介绍了其他滤波器，例如Sobel 滤波器，它赋予边缘中心像素更大权重。根据吴恩达的解释，滤波器的权重不应该人工设计，而应该使用爬山算法（hill climbing algorithm）来学习，例如梯度下降法。...

2018-10-31 09:46:43 221

原创图像处理--高斯模糊

高斯模糊 SIFT算法是在不同的尺度空间上查找关键点，而尺度空间的获取需要使用高斯模糊来实现，Lindeberg等人已证明高斯卷积核是实现尺度变换的唯一变换核，并且是唯一的线性核。...

2018-10-31 09:45:19 346

原创图像处理--RGB

RGB白色:rgb(255,255,255)黑色:rgb(0,0,0)

2018-10-31 09:44:11 1044

原创图像处理--中心凹(foveated architecture)

中心凹(foveated architecture) 人眼中分为中心视力（foveal）和周边（peripheral）视力两部分，中心视力用来提供精确和细节视觉内容，而周边视力则为广角视野范围的画面，两者的视敏度差别引出了视网膜中心凹形渲染系统（foveated rendering system），这是通过追踪人眼，用低画质渲染周边视力的画面，以突出中心视力凝视的内容，但现有的相关渲染技术会造...

2018-10-31 09:43:11 4305

原创图像处理--传统的手工特征之HOG

方向梯度直方图（Histogram of Oriented Gradient, HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。至今虽然有很多行人检测算法，但基本都是以HOG+SVM的思路为主。参考资料：http://blog.csdn.net/liulina603/article/details/8291093计算过程 HOG特征通过计算和统计图像...

2018-10-30 10:27:24 3265

原创图像处理--传统的手工特征之SURF特征

SURF特征 SURF特征比Haar特征更为复杂，因此计算代价更高，但是由于其表达能力更强，因此能够以更少数目的特征来达到相同的区分度，在一定程度上弥补了其在速度上的不足。计算方法简化的SURF特征是一种和Haar特征相类似的特征，但是其计算的是局部区域中像素点的梯度和，并在求和的过程中考虑了梯度方向（所谓梯度，最简单的一种情形就是指同一行上两个不同位置像素值的差比上它们水平坐标的差）...

2018-10-30 10:23:29 650

原创图像处理--传统的手工特征之LBP特征

LBP特征 LBP特征与Haar特征的计算基本一致。是一种二值编码特征，其直接基于像素灰度值进行计算，特点是在编码时考虑的是两个值的相对大小，并且按照一定的空间结构来进行编码。局部组合二值特征就是在LBP特征的启发下设计的；从计算上来看，提取LBP特征比提取Haar特征要快，但是Haar特征对于人脸和非人脸窗口的区分能力更胜一筹。...

2018-10-30 10:21:53 860

原创图像处理--传统的手工特征之Haar特征

Haar特征 Haar特征反映了局部区域之间的相对明暗关系，能够为人脸和非人脸的区分提供有效的信息，例如眼睛区域比周围的皮肤区域要暗，通过Haar特征就可以将这一特点表示出来。特征计算 1）先在窗口的某个位置取一个矩形的小块， 2）然后将这个矩形小块划分为黑色和白色两部分，并分别对两部分所覆盖的像素点（图像上的每个点称为一个像素）的灰度值求和， 3）最后用白色部分像素点灰度值的和...

2018-10-30 10:19:53 1666

原创图像处理--各种多尺度物体检测方法

各种多尺度物体检测方法 a）原图缩放，将目标缩放至与模板匹配的大小，多个Scale的原图对应不同Scale的Feature，该方法计算多次Scale，每个Scale提取一次Feature。 e）与方法a类似，但和 a全图计算不同，只针对Patch计算。该方法在RCNN中使用，使用RCNN进行目标检测时，首先在原图上得到2000个建议框，这些建议框在变形成统一的尺寸大小（如227*2...

2018-10-30 10:14:15 2588

原创图像处理--视频分析方法

视频分析方法主要有3类： 1）背景减除方法。背景减除方法是利用当前图象和背景图象的差分（SAD）来检测出运动区域的一种方法，可以提供比较完整的运动目标特征数据。 2）时间差分法。 3）光流法。...

2018-10-30 10:12:22 3462

原创图像处理--视频之清晰度

清晰度在码率一定的情况下，分辨率与清晰度成反比关系：分辨率越高，图像越不清晰，分辨率越低，图像越清晰。在分辨率一定的情况下，码率与清晰度成正比关系，码率越高，图像越清晰；码率越低，图像越不清晰。...

2018-10-30 10:10:55 1925 1

原创图像处理--视频之帧率和码率

帧率(FPS) 帧率就是在1秒钟时间里传输的图片的帧数，也可以理解为图形处理器每秒钟能够刷新几次。会影响画面流畅度，并与画面流畅度成正比（即帧率越大，画面越流畅；帧率越小，画面越有跳动感）。如果码率为变量，则帧率也会影响体积，帧率越高，每秒钟经过的画面越多，需要的码率也越高，体积也越大。全帧率即每秒30帧，每帧都去抓取，在业界这个指标是最高的。例如：有的嫌疑人员有很强的反侦...

2018-10-30 10:09:44 3305

原创图像处理--视频之各种帧

I帧、P帧、B帧、IDR 帧简单来说，视频压缩时，其实是把每帧当作一幅静止图像压缩，在实际压缩时，会采取各种算法减少数据的容量，其中I帧、P帧、B帧就是最常见的。I帧表示关键帧，你可以理解为这一帧画面的完整保留；解码时只需要本帧数据就可以完成（因为包含完整画面）P帧表示的是这一帧跟之前的一个关键帧（或P帧）的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别，生成最终画面。...

2018-10-30 10:01:21 1350

原创图像处理--计算机视觉的种类

计算机视觉的种类《Computer Vision》，详述了四大部分的内容，包括：分类/定位，目标检测，目标追踪；分割，超分辨率，自动上色，风格迁移，动作识别；3D世界理解；卷积网络架构，数据集，新兴应用等。第一部分：分类/定位，目标检测，目标追踪第二部分：分割，超分辨率，自动上色，风格迁移，动作识别第三部分：3D世界理解第四部分：卷积网络架构，数据集，新兴应用Face++研究院定义...

2018-10-30 09:56:26 350

原创图像处理--VGA分辨率

VGA分辨率 VGA（640x480）又称30 万像素，英文全称是Video Graphic Array，即显示绘图阵列。VGA支持在640X480的较高分辨率下同时显示16种色彩或256种灰度，同时在320X240分辨率下可以同时显示256种颜色。肉眼对颜色的敏感远大于分辨率，所以即使分辨率较低图像依然生动鲜明。VGA由于良好的性能迅速开始流行，厂商们纷纷在VGA基础上加以扩充，如将显...

2018-10-29 11:05:36 5458

原创生成模型--综述2

生成模型的本质本质就是希望用一个我们知道的概率模型来拟合所给的数据样本，也就是说，我们得写出一个带参数 θ 的分布 qθ(x)。然而，我们的神经网络只是“万能函数拟合器”，却不是“万能分布拟合器”，也就是它原则上能拟合任意函数，但不能随意拟合一个概率分布，因为概率分布有“非负”和“归一化”的要求。这样一来，我们能直接写出来的只有离散型的分布，或者是连续型的高斯分布。两种 1）自回归流...

2018-10-29 10:53:56 1347 2

原创生成模型--Glow，基于流的生成模型

Glow，基于流的生成模型生成模型只能受限于 GAN 和 VAE 吗？答案是否的。基于流的生成模型在 2014 年已经被提出，但是一直被忽视。由 OpenAI 带来的 Glow 展示了流生成模型强大的图像生成能力。在 Glow 论文之前，有两个基于流的生成模型 NICE 和 RealNVP，这两个是glow的基石。glow的优点 1）精确的潜在变量推断和对数似然评估，在 VAE ...

2018-10-29 10:49:38 5050

原创生成模型--GAN与NLP

GAN与NLP GAN是否可以应用到NLP上? Yoshua Bengio 的得意门生 Ian Goodfellow 博士回答了这个问题： GANs 目前并没有应用到自然语言处理（NLP）中，因为 GANs 仅仅定义在真值数据中，GANs 通过训练出的生成器来产生合成数据，然后在合成数据上运行判别器，判别器的输出梯度将会告诉你，如何通过略微改变合成数据而使其更加现实。只有在数据连...

2018-10-29 10:46:53 1194

原创生成模型--GAN用于消除运动模糊(Motion Blur)

消除运动模糊与GAN 终极议题：在没有提供任何关于核（kernel）或相机的运动信息的情况下，怎样去除单张照片中的运动模糊(Motion Blur)呢？这不禁让人联想起生成对抗网络（GAN），因为它能够保存高纹理细节，创建的图案又接近真实图像，所以是图像超分辨率和图像修复中的主力军。可以将其用于消除运动模糊。模糊处理可以看作是图像转化中的一个特例，研究人员提出基于条件生成式对抗网络...

2018-10-29 10:44:49 2059

原创生成模型--GAN用于图像漫画特效算法

图像漫画特效算法这种风格迁移的算法都快要被GAN统治了。主要思路可以分两部分： 1）简化图像，即去除图像细节，仅保留图像主要信息；在简化图像步骤，除了meanshift算法外，大家肯定会想到很多边缘保持的图像平滑算法，比如经典的双边滤波、导向滤波等等。更多内容可以查阅这里，该文作者提供了多种边缘保持平滑算法（主要包括双边滤波，域变换，WLS、导向滤波、L0范数平滑等）效...

2018-10-29 10:43:20 3685

原创生成模型--GAN用于图像风格迁移(Neural Style)

图像风格迁移(Neural Style) 关于纹理生成与风格迁移领域，在 2015 年前所有的关于图像纹理的论文都是手动建模的。其中，纹理可以用图像局部特征的统计模型来描述。而图像风格迁移比纹理生成还惨。因为纹理生成至少不管生成什么样子的纹理都叫纹理生成，然而图像风格迁移这个领域当时连个合适的名字都没有，因为每个风格的算法都是各管各的，互相之间并没有太多的共同之处。比如油画风格迁移...

2018-10-29 10:41:26 11138 1

原创生成模型--感知损失(Perceptual Loss)

感知损失(Perceptual Loss) 用于GAN网络生成。Perceptual Loss的出现证明了一个训练好的CNN网络的feature map可以很好的作为图像生成中的损失函数的辅助工具。 GAN可以利用监督学习来强化生成网络的效果。其效果的原因虽然还不具可解释性，但是可以理解为可以以一种不直接的方式使生成网络学习到规律。应用中的perceptual loss 图像风格转换...

2018-10-29 10:36:18 11546 1

原创生成模型--GAN中的L(ide)

L(ide)， target domain identity constraint 是一种提升generator效果通用方法。这个loss的含义是：对于target to source生成器F，如果输入是source domain的图片x（而不是target domain的y），那么也要生成出于x相似的图片。加了这个限制之后，图片颜色就相对稳定了些，不至于很夸张。"...

2018-10-29 10:34:25 269

原创生成模型--LSGAN

LSGAN 用最小二乘损失代替原始的GAN损失。

2018-10-29 10:33:06 314

原创生成模型--损失函数改进之WGAN系列

WGAN系列 1）WGAN 就是在 GAN 的基础上改进的比较成功的一种。WGAN 利用 Wasserstein 距离代替 JS 距离，从而避免了一定的梯度消失问题，这也为很多 GAN 模型的扩展提供了指导。 2）WGAN-GP 是在 WGAN 的基础上改进的，WGAN 在保证 Lipschitz 限制条件时，作者是采用将限制判别器神经网络的所有参数（这里指权重 w）不超过某个范围 [-c...

2018-10-26 10:32:58 9691 1

原创生成模型--GAN的损失函数改进

GAN的损失函数改进除了像cycleGAN、PTGAN等这类在网络理解上的改进，对于GAN而言，还有一类改进是直接针对于损失函数的。 WGAN、LSGAN、WGAN-GP都是在 GAN 的损失函数上采取改进，将衡量真实和生成样本的分布的 JS 距离换为更加优越的衡量标准。...

2018-10-26 10:26:02 4133

原创生成模型--StarGAN

StarGAN 生成式对抗性网络（GANs）的近期进步已经在面部表情生成任务中展现出了令人惊喜的结果。这项任务上最成功的架构是 StarGAN，它把 GANs 的图像生成过程限定在了一个具体的范围中，也就是一组不同的人做出同一个表情的照片。这种方法虽然很有效，但是它只能生成若干种离散的表情，具体是哪一种由训练数据的内容决定。 Stargan这种，对于不同数据集上的不同领域的迁移学习，有没有...

2018-10-26 10:22:34 401

原创生成模型--SPGAN

SPGAN 中了CVPR 2018，属于ReID领域。全名是“Image-Image Domain Adaptation with Preserved Self-Similarity and Domain-Dissimilarity for Person Re-identification”。论文关键点 SPGAN = CycleGAN + L(ide)+L(con) simi...

2018-10-26 10:21:24 2376

原创生成模型--PTGAN

PTGAN 针对于ReID的生成对抗网络PTGAN，可以实现不同ReID数据集的行人图片迁移，在保证行人本体前景不变的情况下，将背景转换成期望的数据集style。论文关键点 1）论文提出LID损失，用PSPNet提取的前景，这个前景就是一个mask; 2）将另外一个数据集通过 PTGAN 迁移到 MSMT 上都能增加 MSMT17 数据集上的performance。 3）cycl...

2018-10-26 10:18:22 656

原创生成模型--TP-GAN

TP-GAN 中科院自动化所（CASIA），中科院大学和南昌大学的一项合作研究，提出了双路径 GAN（TP-GAN），通过单一侧面照片合成正面人脸图像，取得了当前较好的结果。这里采用双通道网络，Two Pathway Generator，一个是 local pathway,另一个是 global pathway。 1）local pathway 用于解决人脸的细节问题，输入侧脸的四个...

2018-10-26 10:17:00 1945 5

原创生成模型--CycleGAN

CycleGANCycleGAN和pix2pix的比较 pix2pix也可以做图像变换，它和CycleGAN的区别在于，pix2pix模型必须要求成对数据（paired data），而CycleGAN利用非成对数据也能进行训练(unpaired data)。比如，我们希望训练一个将白天的照片转换为夜晚的模型。如果使用pix2pix模型，那么我们必须在搜集大量地点在白天和夜晚的两张对应图...

2018-10-26 10:15:28 402

原创生成模型--DCGAN(Deep Convolution GAN)

DC-GAN(Deep Convolution GAN) 用深度卷积网络进行对抗生成网络的建模。最早的时候，GAN采用的是全连接层。而后也有一些基于卷积神经网络的GAN实现，但是相对来说，DC-GAN的最终表现与同期的模型相比更优秀。模型的一些改进细节 1）将Pooling层替换成带有stride的卷积层 2）使用Batch Normalization 3）放弃使用全连接层...

2018-10-26 10:14:24 1076

原创生成模型--生成式对抗网络(GAN，Generative Adversarial Networks)综述

生成式对抗网络(GAN，Generative Adversarial Networks) 无监督深度学习，除了强化学习，主要包括BM、自动编码器AE和GAN领域。是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。它由两个成对的网络协同运作，即生成模型（Generative Model）和判别模型（Discriminative Model），两者的的互相博弈学习产生...

2018-10-26 10:10:06 6973

原创生成模型--变分自编码器(Variational Autoencode，VAE)

变分自编码器(Variational Autoencode，VAE) Generative Models，Variational Autoencoder(VAE) 和 GAN 可以说是两座大山头。 VAE包括两部分：编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征，低级表征叫作本征向量（latent vector）。解码器吸收数据的低级表征，然后输出同样数据的高级表征。 ...

2018-10-26 09:39:33 4980

网络压缩和加速

空空如也