自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 Taskonomy: Disentangling Task Transfer Learning

Taskonomy: Disentangling Task Transfer Learning项目主页:Taskonomy 这篇Paper是CVPR2018的best paper。主要关注于迁移学习方面的研究。以前我们经常会用ImageNet预训练好的模型来到新的数据上finetuing,可是我们从没有仔细度量过,在分类上预训练好的模型,应用到分割上,会比在检测问题上预训练好的模型应用到分割...

2018-09-15 15:39:37 1563

原创 PVANet论文阅读笔记

论文:Lightweight Deep Neural Networks for Real-time Object DetectionGithub:PVANetC++ Demo :PVANet_CPPAbstract许多目标检测问题中,算法的运行速度和精度同等重要。本文主要针对的就是算法的运算速度提升问题。作者提出了一个轻量级的网络,取得了state...

2017-01-22 11:25:00 313 2

原创 阅读的艺术(一)

阅读的艺术:主动阅读相信无数人从高中毕业之后就患上了"阅读昏睡症"。对于稍微需要费脑的专业书籍,学术论文,目光一触及文字,脑袋里的思绪就开始打结,导致脑子跟不上眼睛的速度。脑袋里只知道每个字是什么,而不知道每个字的含义是什么,至于说联系上下文,引申思考就更无暇顾及了。几分钟之后,如果没有强制让自己调整状态,很容易就开始进入昏睡状态。那么我们该如何保持一...

2019-03-23 18:58:00 386

原创 GAN万字长文综述

生成对抗网络(GAN,Generative Adversarial Networks)作为一种优秀的生成式模型,引爆了许多图像生成的有趣应用。GAN相比于其他生成式模型,有两大特点:不依赖任何先验假设。传统的许多方法会假设数据服从某一分布,然后使用极大似然去估计数据分布。关于这点,我们后面还会讲到,没懂的同学先不用着急。生成real-like样本的方...

2019-03-01 18:07:00 4078

原创 Automatic Unpaired Shape Deformation Transfer

论文:Arxiv代码:Github这篇paper主要是做运动迁移的。现有Shape Deformation Transfer的问题:要求成对数据或要求point-wise的对应关系运动迁移示意图以上图为例,要把一个瘦子(source域)的动作迁移到胖子(target域)身上。传统的做法往往需要一一对应的动作数据,或者是poi...

2019-01-06 19:47:00 892

原创 InstaGAN:Instance-Aware Image To Image Translation

论文:InstaGAN代码:Github做了什么?现有无监督Image-Image translation的缺点:涉及多目标的时候,转换效果不佳物体外形变化比较大的时候,转换效果不佳多目标示例图以上图为例,多个绵阳迁移到长颈鹿就是一个多目标,且形状变化较大的例子。作者提出的InstaGAN就在一定程度上解决了上述问题。...

2019-01-05 16:22:00 1197

原创 GAN的评价(一):An empirical study on evaluation metrics of generative adversarial networks

这篇paper的作者评价了各自度量GAN优劣性的指标,并给出了实际工程方面的经验。现有GAN评价指标存在哪些问题?评价指标本身好坏,缺乏一个评价体系现有许多评价指标虽然和人的主观比较一致。可是与人的主观一致并不一定就代表GAN是好的。现有的一些评价指标,比如Inception score和MMD等,虽然可以在一定程度上评价GAN。但是这些评价指...

2018-12-09 18:59:00 2230

原创 SeqGAN:Sequence Generative Adversarial Nets with Policy Gradient

论文:SeqGAN代码:Github这篇paper主要介绍了GAN在文本生成上的应用。GAN在2014年被提出之后,在图像生成领域取得了广泛的研究应用。然后在文本领域却一直没有很惊艳的效果。主要在于文本数据是离散数据,而GAN在应用于离散数据时存在以下几个问题:GAN的生成器梯度来源于判别器对于正负样本的判别。然而,对于文本生成问题,RNN输出的是...

2018-12-04 22:05:00 511

原创 关于CUDA,cuDNN,TF,CUDA驱动版本兼容问题

实际工作当中,经常维护好几个项目的代码,不同项目依赖的TF版本不一致问题。网上找了好多资料,但是每次遇到的问题都不一样,每次都要去查(就是是一样的问题,解决办法也可能会不一样)每次踩坑无数,今天痛定思痛,下决心总结一下。基本概念CUDA:用于GPU编程的语言,跑TF的时候用了GPU,TF里面很多函数(或者依赖库)是CUDA语言编写的。不同TF版本需要...

2018-12-03 14:45:00 15485

原创 SMPL: A Skinned Multi-Person Linear Model

这篇paper里,作者提出了SMPL模型(一种人体三维模型),这种模型特点:有皮肤(骨骼蒙皮),纹理。基于顶点的模型,方便调整以适应各种人体形状以及姿态。SMPL模型是从数据里面学习出来的,这个模型比目前业界效果更好,且和工业界的Unity,Maya是打通的。动画制作关键词这里科普几个有关动画制作的关键词(不是专业做动画的,有些关键词含义可能...

2018-11-28 17:29:00 4421

原创 Rethinking ImageNet Pre-training

论文:Rethinking ImageNet Pre-training这篇paper因为其想法比较具有颠覆性(还有作者是Kaiming He大佬),刚放出来就引发了大量的讨论。通常来说,对于绝大部分CV问题的惯常做法就是,不管三七二十一,先在ImageNet预训练一下,然后针对具体的问题fine-tuing。在这里,作者发现,从零开始训练,不用fine-...

2018-11-24 14:41:00 500

原创 Vid2Vid:Video-to-Video Synthesis

论文:Vid2Vid代码:项目主页Vid2Vid作为pix2pix,pix2pixHD的改进版本,重点解决了视频到视频转换过程中的前后帧不一致性问题。视频生成的难点GAN在图像生成领域虽然研究十分广泛,然而在视频生成领域却还存在许多问题。主要原因在于生成的视频很难保证前后帧的一致性,容易出现抖动。对于视频问题,最直观的想法便是加入前后帧的光流信息作...

2018-11-22 15:08:00 5024 1

原创 CycleGAN:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

论文:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial NetworksGitHub:CycleGAN部分图像翻译算法存在的问题许多图像翻译算法需要一一对应的图像。可是在许多应用场景下,往往没有这种一一对应的强监督信息。比如说以下一些应用场景:C...

2018-11-19 21:03:00 365

原创 Audio Super Resolution with Neural Networks

Audio Super Resolution with Neural Networks论文:Audio Super Resolution with Neural Networks代码: GithubCV方向的超分辨研究已经非常多了,但是音频方向的超分辨研究却相对较少。作者的这篇文章就是开山之作,已经发表在ICLR2017上,从项目主页的Demo来看,...

2018-11-19 20:13:00 1053

原创 深度学习分布式训练实战(二)——TF

本篇博客主要介绍TF的分布式训练,重点从代码层面进行讲解。理论部分可以参考深度学习分布式训练实战(一)TF的分布式实现方式TF的分布式有两种实现方式,一种是图内分布式(In-graph replication);一种是图间分布式(Between-graph replication)。图内分布式中,计算图只有一个,需要一个中心节点分配计算任务并更新参数,...

2018-11-19 20:11:00 579

原创 深度学习分布式训练实战(一)

本系列博客主要介绍使用Pytorch和TF进行分布式训练,本篇重点介绍相关理论,分析为什么要进行分布式训练。后续会从代码层面逐一介绍实际编程过程中如何实现分布式训练。常见的训练方式单机单卡(单GPU)这种训练方式一般就是在自己笔记本上,穷学生专属。 : )就是一台机器,上面一块GPU,最简单的训练方式。示例代码[2]:#coding=utf-...

2018-11-19 20:09:00 2456

原创 Wasserstein GAN简明版

涉及WGAN的论文总共三篇:WGAN前作:Towards Principled Methods for Training Generative Adversarial NetworksWGAN:Wasserstein GAN改进的WGAN:Improved Training of Wasserstein GANs代码:各种GAN的实现这三篇论文理...

2018-11-19 20:07:00 1327

原创 Caffe源码解读:Layer类

Layer类简介至少有一个输入,输出Blob。部分Layer带有权值和偏置项(如:激活层没有权值项)前向传播对输入Blob处理,得到输出Blob。反向传播对输出的diff进行处理,得到输入的diffProtoBuffer描述打开./caffe/src/caffe/caffe.proto文件,找到LayerParameter,查看对应的数据结构...

2018-11-18 15:36:00 1197

原创 bigGAN: LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

论文地址:bigGAN这篇paper还在ICLR2018的审稿当中,但是由于效果太惊艳,已经引起了广泛的讨论。这篇介绍的GAN模型用于生成高清图像,其生成的图像质量非常高,高到可以以假乱真的程度。先来几张感受一下:作者的工作主要体现在以下三点:...

2018-10-06 23:32:07 1713

原创 深度学习分布式训练实战(二)——TF

本篇博客主要介绍TF的分布式训练,重点从代码层面进行讲解。文章目录参数同步更新的分布式训练参数异步更新的分布式训练参数同步更新的分布式训练参数异步更新的分布式训练...

2018-10-06 12:02:02 1903

原创 深度学习分布式训练实战(一)

本系列博客主要介绍使用Pytorch和TF进行分布式训练,本篇重点介绍相关理论,分析为什么要进行分布式训练。后续会从代码层面逐一介绍实际编程过程中如何实现分布式训练。文章目录常见的训练方式单机单卡(单GPU)单机多卡(多GPU并行)多机多卡(分布式)为什么要使用分布式训练Batch Size对训练的影响分布式训练实现方式数据并行模型并行混合并行多GPU训练的参数更新方式总结常见的训练方式单...

2018-10-03 18:47:21 12565 3

原创 Phrase-Based & Neural Unsupervised Machine Translation

Phrase-Based & Neural Unsupervised Machine Translation论文:Phrase-Based & Neural Unsupervised Machine Translation代码:Github这篇Paper是EMNLP 2018的best paper,用于实现无监督机器翻译,不过无监督机器翻译的思想早就有研究者提出来了,这篇pa...

2018-09-25 20:54:59 1962

原创 不需要干净样本的去噪方法:Noise2Noise

论文:Noise2NoiseGithub:第三方复现Noise2Noise引言用深度学习方法进行图像去噪的时候,通常需要大量的训练图像样本对,即带有噪声的图片和去噪后的图片,可是去噪后的图片往往很难获得,比如在摄影中,需要长曝光才能获得无噪声图片。在MRI图像中,获取无噪声图片则更加难。这篇论文的作者就提出了一种不需要无噪声图片作为标签的去噪方法。...

2018-08-11 18:50:00 6035

原创 基于现有 TensorFlow 模型构建 Android 应用

在之前写的一篇文章 TensorFlow,从一个 Android Demo 开始 中通过编译官方的 Demo 接触到了 TensorFlow 实际使用场景。这篇文章打算从一个Android 开发者的角度切入,看看构建一个基于 TensorFlow 的 Android 应用的完整流程。相关代码可查看:GitHub 项目地址通过 TensorFlow 用已...

2018-03-16 12:29:00 156

原创 SSD论文阅读笔记

论文:SSD: Single Shot MultiBox DetectorGithub : SSDSSD类似YOLO,和YOLO同属于目标检测算法中基于回归的算法。Abstract作者提出了SSD模型,把输出的bounding boxes看成一组不同尺度,不同大小的boxes。说白了,就是在不同尺度上的feature map上设置一系列不同大小...

2017-11-29 18:34:00 241

原创 深度学习超分辨开山之作SRCNN

论文:Learning a Deep Convolutional Network for Image Super-Resolution代码:项目主页作为将深度学习应用于超分辨的开山之作,论文的思路来源于前人的基于稀疏编码的单帧超分辨重建算法。作者设计了一个3层的CNN,以逐像素损失为代价函数。感觉没有什么特别的技巧,取得了state of art的效果...

2017-08-08 13:23:00 3253

原创 C++中的类型转换

C语言里面,类型转换方法如下:(type)objectC++中则提供了更为丰富的类型转换方式,总共有4种:static_cast, dynamic_cast, const_cast, reinterpret_caststatic_cast<typeid> expression用于类层次结构中基类和派生类之间指针或者引用的转换...

2017-07-30 20:03:00 108

原创 Caffe源码解读:syncedmem类

内存同步(syncedmem)类的作用在于管理主机(CPU)和设备(GPU)之间的内存分配和数据同步,封装了二者之间的交互操作。这个类没有对应的ProtoBuffer描述,所以直接看./include/caffe/syncedmem.cpp文件:#ifndef CAFFE_SYNCEDMEM_HPP_#define CAFFE_SYNCEDMEM_H...

2017-07-24 17:13:00 182

原创 Caffe源码解读:Blob类

Caffe里面有几个基本的类:Blob,Net,Layer,Solver。其中Blob类是caffe最基本的数据结构,是一个多维数组,且自动在CPU和GPU之间实现数据同步。对于图像数据而言,维度为4,从低到高表示为:width_, height_, channels_, num_。有点像Tensorflow里面的tensor一样。一层层的Layer组成了...

2017-07-23 22:01:00 360

原创 Caffe入门:Caffe概览

个人学习一个东西比较喜欢站在一个全局的角度先了解学习下,培养大局观这样有助于更好的思考整个事情。下面就来先看看Caffe的目录框架(在命令行输入tree -d,可以看到类似如下的结果,有删改,只保留了要重点关注的部分):.├── build -> .build_release // 编译结果存放处,目录结构和主目录差不多├── include...

2017-07-23 17:05:00 155

原创 Linux命令行

工作中经常用到Linux命令行,下面对常用命令做一下简要总结,只是说一下大概功能,具体参数选择什么的可以在细看文档:ps // 查看进程, 可以和grep结合,是结果更易查看ps -ef | grep caffegrep // 文本搜索命令,可以使用正则表达式匹配top // 查看cpu, 内存使用情况nvidi...

2017-07-22 16:38:00 152

原创 智能指针

C++ STL里面一共提供了4种智能指针:auto_ptr<template T>, unique_ptr<template T>, shared_ptr<template T>, auto_ptr<template T>.第一个是C++98提供的,后面三个是C++11提供的(第一个已经被C++11摒...

2017-07-21 14:23:00 107

原创 Correcting Over-Exposure in Photographs

论文:Correcting Over-Exposure in Photographs本论文主要讨论过曝光校正算法。所谓过曝光,示例如下所示:过曝光图片校正示例图片中女孩脸部有部分过亮(用蓝色画出部分)。为了达到曝光校正的目的,作者的方法分为以下几步:为了给过曝光区域的亮度恢复腾出空间,压缩曝光良好区域图像的动态范围。基于过曝光的可能...

2017-07-20 18:50:00 892 1

原创 图像金字塔重构与增强

转自:http://www.cnblogs.com/silence-hust/p/4193208.html关于用拉普拉斯金字塔进行图像拼接的代码:http://blog.csdn.net/abcjennifer/article/details/7628655拉普拉斯金字塔融合图像金字塔方法的原理是:将参加融合的的每幅图像分解为多尺度的金字塔图像序...

2017-07-17 15:00:00 2172

原创 图像金字塔入门

图像金字塔图像金字塔在图像处理领域应用比较多,上课的时候只记得老师讲的一个大概的概念:图像金字塔和普通金字塔一样,它是一组图像的集合。这一组图像分辨率不一样,它模拟人的视觉,近处看东西清楚,原处看东西模糊。不过说完这些没有任何用,还是不知道怎么回事。下面就把这个记录下来,没事可以复习翻一翻。1.高斯金字塔高斯金字塔的建立过程是这样的:用高斯函数对图像...

2017-07-16 23:44:00 243

原创 Faster R-CNN论文阅读笔记

论文:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal NetworksGithub: Faster R-CNN如果不了解R-CNN系列,建议先阅读这方面的论文,博客相关知识论文里采用了“Anchor”机制来生成候选区域,候选区域生成最简单粗暴的方法就是用...

2017-07-16 23:21:00 181

原创 SRGAN阅读笔记

论文:Photo-Realistic Single Image Super-Resolution Using a Generative AdversarialGithub:SRGANAbstractCNN在传统的单帧超分辨率重建上取得了非常好的效果,可以取得较高的峰值信噪比(PSNR)。他们大都以MSE为最小化的目标函数,这样虽然可以取得较高的峰值信...

2017-05-29 19:14:00 1816 2

原创 Adversarial Multi-task Learning for Text Classification

论文 : Adversarial Multi-task Learning for Text Classification最近决定每周读一篇GAN的论文。一方面,提升自己的阅读理解能力。另一方面,拓展自己的思路。作为GAN的初学者,有很多表述不当的地方欢迎大家批评指正!标题:对抗多任务学习用于文本分类。所谓多任务学习(MTL)就是指学习某一类任务的通用知...

2017-05-14 10:40:00 331

原创 InfoGAN

论文: InfoGAN: Interpretable Representation Learning byInformation Maximizing Generative Adversarial NetsAbstract作者提出了InfoGAN,InfoGAN作为GAN,也是最大化隐变量和观测之间的一个小的子集的互信息。但是作者将互信息的下界作为优...

2017-05-07 11:21:00 459

原创 STL里面的函数(不定期更新)

upper_bound, lower_bound这两个函数类似,以upper_bound为例,该函数有两种形式:template <class ForwardIterator, class T>ForwardIterator upper_bound (ForwardIterator first, ForwardIterator last...

2017-02-23 19:52:00 102

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除