最新论文阅读(30)

3D Hand Pose Estimation: From Current Achievements to Future Goals

- 2017年12月
- 综述性论文;论文回答了3D手姿态估计的当前状态是什么,还有哪些挑战需要解决?
- 很多人

  基于HIM2017挑战赛的结果,调查了在三种任务(单帧三维姿态估计,三维手部追踪和手部姿态估计)下的11种最先进的方法。
  我们分析不同的CNN结构在手形,联合可见性,视点和关节分布方面的表现。
  结论如下:(1)孤立的3D手姿态估计在[40,150]度的视点范围内实现了较低的平均误差(10mm),但是对于极端的观点来说远远不能解决;(2)三维体素表现优于二维CNN,更好地捕捉深度数据的空间结构;(3)鉴别方法仍然推广到看不见的手形;(4)虽然联合遮挡对大多数方法提出了挑战,但结构约束的显式建模可以显着地缩小可见和闭塞联合的误差之间的差距。


Wild Patterns: Ten Years After the Rise of Adversarial Machine Learning

- 2017年12月
- 综述性论文;对抗学习的十年发展概述;对于对抗样本的机器学习。对于我,仅作为开阔眼界。
- 卡里亚里大学【意大利】

  DL虽然有了重大进步,但在训练或在测试时精心设计的对抗输入扰动很容易地颠覆他们的预测。为此,需要对抗机器学习,对于对抗性输入设计适当对策。
  论文介绍了从开创性的早期工作,到最近的深入学习算法的安全属性,在不同的应用环境中。我们报告了这些明显不同的工作线之间有趣的联系,突出了与评估机器学习算法安全性相关的常见误解。我们最后讨论了当前工作的主要局限性,以及在设计更安全的学习算法时相应的未来研究挑战。


Multi-modal Face Pose Estimation with Multi-task Manifold Deep Learning

- 2017年12月
- 流形学习;人脸姿态估计;多模态
- Member, IEEE

  利用多模态数据,并提出了一种新的人脸姿态估计方法,称为Multi-task Manifold Deep Learning (M^2DL)。
  提出了流形正则卷积层(MRCL),它通过学习神经元输出之间的关系来改进传统的卷积层。
  在基准数据集DPOSE,HPID和BKHPD上的实验结果证明了其出色性。


Estimating or Propagating Gradients Through Stochastic Neurons

- 2013年5月
- 随机神经元;无意义
- Yoshua Bengio 

DeepStyle: Multimodal Search Engine for Fashion and Interior Design

- 2018年1月   
- 多模态搜索引擎;结合了图像和文本;
-   

  类似于查询的多媒体数据库中检索项目。
  方法被称为DeepStyle;通过使用联合神经网络架构来模拟不同模式的特征之间的上下文相关性。网络结构是两个输入,一个是图像,一个是文本。更复杂点,有DeepStyle-Siamese network。
  方法在时尚物品和家具的两个数据集上,效果好于DeepStyle-Siamese network。


Conditional Probability Models for Deep Image Compression

- 2018年1月
- 图像压缩技术
- 瑞士联邦理工大学  

  自编码器已经成为推进图像压缩技术发展的一个有希望的方向。训练这种网络的关键挑战是:处理量化并控制潜在表示的重构误差(失真)和熵(速率)之间的折衷。
  在本文中,主要关注后者的挑战,并提出了一种新的技术来导航图像压缩自编码器的速率 - 失真权衡。其主要思想是通过使用上下文模型来直接对潜在表示的熵进行建模:3D-CNN,其学习自动编码器的潜在分布的条件概率模型。


Sparsely Connected Convolutional Networks

- 2018年1月
- SparseNets;densenet和resnet的变种;
- 西蒙弗雷泽大学【加拿大】

  DenseNets提出了一个密集的连接结构,其中每一层直接连接到前面所有layer,但过度密集的连接也带来了过度拟合,参数冗余和大内存消耗的潜在风险问题。
  分析了ResNets和DenseNets的特征聚合模式,它们用各自的方式聚合特征:求和(ResNets)或串联(DenseNets)。我们比较这两种聚合方法的优缺点,并分析它们对网络性能的潜在影响。
  基于我们的分析,我们提出了一个名为SparseNets的新结构,其参数比DenseNets和ResNets更少。


Extend the shallow part of Single Shot MultiBox Detector via Convolutional Neural Network

- 2018年1月   
- DSSD的变种;无新意,但估计是参数调得好
- 北京大学深圳研究生院

  DSSD是一种通过将反卷积模块添加到SSD来引入更多上下文信息的方法,DSSD比SSD高1.1%,但每秒帧数(FPS)从46降低到11.8。本文提出一种称为ESSD来解决速度问题。
  我们解决这个问题的办法是巧妙地为最好的单级(如SSD)探测器的浅层提供更好的背景信息,其实就是在最后几个layer上加上Extension module,这个模块会将相邻两个layer合并(sum或concat)使feature map数目变多。
  实验结果表明,ESSD可以达到79.4%的mAP,这比DSSD和SSD分别高出0.8和1.9个百分点。同时,我们的Titan X GPU的测试速度是25 FPS,比原来的DSSD高出一倍以上。


Inverted Residuals and Linear Bottlenecks: Mobile Networks for Classification, Detection and Segmentation

- 2018年1月
- MobileNetV2;Resnet和mobilenet的结合;inverted residual 和Linear Bottlenecks 
- Google

  该体系结构改进了多任务和基准测试以及不同模型大小的移动模型的性能状态。
  我们还描述了在一个我们称为SSDLite的新型框架中将这些移动模型应用于对象检测的有效方法。另外,我们演示了如何通过称为Mobile DeepLabv3的简化形式DeepLabv3来构建移动语义分割模型。
  主要将resnet的bottleneck的中间层卷积换成depthwise-separable卷积以节省空间和计算量,此外通道数在头尾两个1*1卷积中先增加后减少,这点与resnet的bottleneck相反。
  我们测量了Imagenet分类,COCO物体检测,VOC图像分割的性能。


Fix your classifier: the marginal value of training the last weight layer

- 2018年1月
-   
-       

  神经网络通常被用作各种任务分类的模型。典型地,学习仿射变换放置在这样的模型的末尾,产生用于分类的每类值。这个分类器可以有大量的参数,它随着可能的类的数量而线性增长,因此需要越来越多的资源。
  在这项工作中,我们认为这个分类器可以被固定,达到一个全球范围常数,对于大多数任务来说,精度损失很小或没有损失,从而允许记忆和计算的好处。此外,我们表明,通过用哈达玛矩阵初始化分类器,我们也可以加速推理。我们讨论目前对神经网络模型理解的含义。


PointCNN

- 2018年1月
- PointCNN
- 山东大学

  PointCNN提出了一种称为X-变换的方法。X-变换是从输入点学习到的一组权值X,这组权值可以对各点相关联的特征进行重新加权和排列。 X-变换可以实现“随机应变”,即当输入点的顺序变化时, X能够相应地变化,使加权和排列之后的特征近似不变。输入特征在经过X-变换的处理之后能够变成与输入点顺序无关同时也编码了输入点形状信息的归一化的特征。在经过X-变换之后的特征上进行卷积能够极大提高卷积核的利用率, 从而大大提高卷积操作在无序数据上提取特征的能力。
  点云是不规则和无序的,因此在这些点关联的特征上直接求核的卷积会导致形状信息的丢失,同时还会因顺序不同而不同。为了解决这些问题,我们提出根据输入点学习一种X变换,然后将其用于同时加权与点关联的输入特征和将它们重新排列成潜在隐含的规范顺序,之后再在元素上应用求积和求和运算。我们提出的方法是典型CNN向基于点云的特征学习的泛化,因此我们将其称为PointCNN。
  实验表明,PointCNN能在多种有挑战性的基准数据集和任务上实现与之前最佳方法媲美或更好的表现。


Learning Affinity via Spatial Propagation Networks

- 2017年10月
- spatial propagation network(空间传播网络),传统方法并不会死,而是改头换面以更好的形式在deep learning中重生。
- Nvidia;加州大学默塞德分校

  近几年间各种dense correspondence(例如segmentation)问题都得到了飞速的发展。绝大多数工作都是关于设计更好网络结构(FCN,DeepLab,PSPNet,DUC等)和改进基础卷积操作(如Dilation Conv,Deformable Conv等),但还要使用CRF来进行一波refine。早期一个经典的工作CRF as RNN试图把传统的dense CRF推断过程使用一个RNN网络近似,而作者使用的是另一种方法来代替CRF.。
  在Spatial Propagation Network(SPN)中,作者首先通过训练一个CNN,对于输入图片的特征显式学习每一个位置在空间关系上四个近邻的affinity(相连性),然后根据这些affinity去将已有segmentation的结果进行refine。不同于dense CRF中每个像素都和其他所有相连接,考虑到实际计算的复杂度和实现效率,作者提出了两种连接方式,即one way connection和three way connection。具体来说,作者通过多次在四个方向上进行linear propagation来将spatial context的信息融合到最终的结果中去。
  类似本篇论文,在《Spatial As Deep: Spatial CNN for Traffic Scene Understanding》中,也提出了空间CNN(SCNN),它将传统的深层逐层卷积概化为特征映射内的逐层卷积,从而实现层间行和列之间的像素之间的消息传递。这种SCNN特别适用于长连续形状结构或大物体,具有较强的空间关系但较少外观线索,如交通车道,电线杆和墙。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值