【论文笔记】2017 NIPS会议论文整理

本文汇总了2017年NIPS会议上关于深度学习和生成对抗网络(GAN)的论文,重点介绍了在图像生成、识别和压缩领域的进展。DA-GAN在人脸识别中解决了姿态不平衡问题,Dilated RNN则改善了长序列数据处理的效率。其他研究包括图像到图像的转换、无监督学习和多模态学习。这些技术在提高模型性能、泛化能力和效率方面取得了突破。
摘要由CSDN通过智能技术生成

Dual-Agent GANs for Photorealistic and Identity Preserving Profile Face Synthesis

【主要内容】旨在从单张人脸(正面)合成不同姿态下的不同人脸,来解决在实际的人脸识别数据集中,侧面人脸训练样本分布不平衡导致人脸识别模型对于具有少量样本的姿态下的人脸识别失败的问题。使用了现有的3D人脸模型作为模拟器来生成不同姿态的侧面人脸图像。DA-GAN采用了一个全卷积网络作为生成器来生成高分辨率的图像和一个有双代理的自动编码器作为分辨器。除了新的架构,我们对于标准的GAN做了几个关键的修改来保持姿态和纹理,保留身份信息以及稳定训练过程:(i)一个姿态感知loss;(ii)一个身份感知loss;(iii)一个有边界平衡正则项的对抗loss。实验结果表明DA-GAN不仅带来了非常有趣的感知结果,而且在大规模并且具有挑战的NIST IJB-A无限制人脸识别基准测试中显著优于现有技术。除此之外,提出的DA-GAN有望成为更有效解决一般的迁徙学习问题的新方法。【2】

【单词】notoriously [a]著名的;vanish[v]消失;gradient[n]梯度;tackle[v]处理;recurrent[a]重复循环;

dilate[v]扩宽的

Dilated Recurrent Neural Networks

【主要内容】proposed RNN connection structure。传统递归神经网络在学习长序列数据时通常遇到很大的困难,主要表现在复杂的长时序跨度记忆和中短期记忆难以同时处理,用反向传播 (BP) 算法训练递归神经网络容易出现梯度消失和梯度爆炸的问题,与前向和反向传播需要串行进行,导致训练非常费时。本文提出了一种dilated RNN来解决上述训练难题。这种网络基于一种创新的多分辨率dilated递归skip连接,能够自由地和不同种类RNN单元结合。这种dilated递归神经网络结构显著减少了网络参数,提高了训练的高效性,同时还能取得与标准的递归神经网络相似的效果。为了理论地量化该网络结构的优势,本文还提出了一种记忆容量衡量标准,即平均递归长度,比已有的标准更适合具有长skip的递归神经网络【1】。

【单词】notoriously [a]著名的;vanish[v]消失;gradient[n]梯度tackle[v]处理;recurrent[a]重复循环;

dilate[v]扩宽的

Hunt For The Unique, Stable, Sparse And Fast Feature Learning On Graphs

【主要内容】提出了一系列图谱原型。将这种抓取图片特征的方法与简单的SVM分类器结合,也有很好的精度和速度,效果很好。

【单词】exhibit[v]展示出;yield[v]生产、产量、屈服、放弃;be ameanable to 有义务、对…负责;demonstrate[v]证明,展示;utility[n,a]用途,功用

【1】http://www.sohu.com/a/210825402_500627

【2】http://blog.sina.com.cn/s/blog_6ca0f5eb0102wzqn.html

⑦dynamic safe interruptibility of reinforcement learning
主要内容】在 强化学习中 ,代理通过执行行为并观察其结果来学习。有时候,为了防止发生危险情况,操作人员需要中断代理。
然而,作为学习过程的一部分,行动者可能会将这些影响他们奖励的干扰与特定的国家联系起来,并故意避免。这种情况在多主
体环境中特别具有挑战性,因为主体不仅可以从他们自己的过去的中断中学习,还可以从其他主体的中断中学习。 Orseau和
Armstrong为一个学习者定义了安全可中断性,但他们的工作并不自然扩展到多代理系统。本文介绍动态安全可中断性,一种更
适合分散式学习问题的替代定义,并在两个学习框架中研究这个概念:联合行动学习者和独立学习者。我们给出了学习算法的实
际充分条件,以便在联合行动学习者的情况下实现动态安全可中断性,但表明这些条件对于独立学习者是不够的。然而,我们表
明,如果代理可以检测到中断,那么即使对于独立学习者,也可以修剪观察以确保动态安全中断。

Label Efficient Learning of Transferable Representations acrosss Domains and Task

【主要内容】我们提出了一个框架,以一种数据有效的方式学习可跨不同领域和任务转移的表示。 我们的方法与领域对抗性损失战斗域转移,并使用基于度量学习的方法将嵌入到新任务中。 我们的模型同时针对标记的源数据和目标域中未标记或稀疏标记的数据进行了优化。 我们的方法在新领域内的新类别上显示出令人瞩目的结果,即使每个类别只有少数几个标注的例子可用,也超越了流行的微调方法。 另外,我们展示了我们的框架在从图像对象识别到视频动作识别的转换学习任务上的有效性。

⑨Decoding with Value Networks for Neural Machine Translation

【主要内容】神经机器翻译(NMT)近年来已成为一种流行的技术,由于缩小的搜索空间和降低的计算复杂度,束搜索是其事实上的解码方法。然而,由于它只是通过一步向前查找在每个时间步骤中搜索局部最优解,因此通常不能输出最佳目标句子。受到AlphaGo成功和方法论的启发,本文中我们提出使用预测网络来改善波束搜索,它将源句子,当前可用的解码输出和候选词作为输入,并预测长期值(例如BLEU分数),如果它是由NMT模型完成的话。遵循强化学习的练习,我们称之为预测网络\ emph {价值网络}。具体而言,我们提出价值网络的循环结构,并从双语数据中训练其参数。在测试期间,当选择解码词时,我们既考虑NMT模型给出的条件概率,又考虑价值网络预测的长期价值。实验表明,这种方法可以显着提高翻译任务的翻译准确率。

Structured Embedding Models for Grouped Data

【主要内容】字嵌入是分析语言的一种强大方法,指数族嵌入(EFE)将它们扩展到其他类型的数据。 在这里,我们开发了结构化的指数族嵌入(S-EFE),这是一种用于发现在相关数据组之间变化的嵌入的方法。 我们研究美国国会演讲词的用法在各州和党派之间是如何变化的,在ArXiv的各个部分中如何使用不同词语,以及不同季节中杂货的共同购买模式如何变化。 我们方法成功的关键在于这些小组共享统计信息。 我们制定了两种分享策略:分层建模和摊销。 我们在演讲,摘要和购物篮的实证研究中展示了这种方法的好处。 我们展示SEFE如何使用单词使用的特定组的解释,并且在预测伸出数据方面优于EFE。

MaskRNN: Instance Level Video Object Segmentation

【主要内容】实例级视频对象分割是视频编辑和压缩的重要技术。 为了捕捉时间相干性,在本文中,我们开发MaskRNN,一种循环神经网络方法,在每个帧中融合每个对象实例的两个深网的输出 - 提供掩模的二进制分割网和提供边界框的定位网。 由于周期性分量和本地化分量,我们的方法能够利用视频数据的长期时间结构以及拒绝异常值。 我们在三个具有挑战性的基准数据集上,即DAVIS-2016数据集,DAVIS-2017数据集和Segtrack v2数据集验证了所提出的算法,实现了所有这些数据集的最新性能。

tip:对象分割技术+图像识别,自动识别,无人驾驶

Gated Recurrent Convolution Neural Network for OCR

【主要内容】光学字符识别(OCR)旨在识别自然图像中的文字。 受最近提出的一般图像分类模型 - 回归卷积神经网络(RCNN)的启发,我们提出了一种新的架构--Gated RCNN(GRCNN)来解决这个问题。 其关键部分门控递归卷积层(GRCL)是通过在RCNN的关键部分 - 递归卷积层(RCL)上增加一个门而构建的。 门控制RCL中的上下文调制并平衡前馈信息和循环信息。 此外,还构建了一个高效的双向长期短期记忆(BLSTM),用于序列建模。 GRCNN与BLSTM结合识别自然图像中的文字。 整个GRCNN-BLSTM模型可以进行端对端培训。 实验表明,该模型在包括IIIT-5K,街景文本(SVT)和ICDA

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值