最新论文阅读（19）

最新推荐文章于 2020-12-06 00:28:57 发布

whitenightwu

最新推荐文章于 2020-12-06 00:28:57 发布

阅读量1.1k

点赞数

分类专栏：深度学习论文阅读

本文链接：https://blog.csdn.net/wydbyxr/article/details/80635168

版权

深度学习论文阅读专栏收录该内容

66 篇文章 3 订阅

订阅专栏

- 2017/4/21 
- CNN   
- 马克斯普朗克信息研究所（Max Planck Institute for Informatics）【德】

　　社会关系；视觉与社会心理学的融合；很奇怪的研究。

Bidirectional Multirate Reconstruction for Temporal Modeling in Videos

- 2016/11/28
- RNN
- 悉尼科技大学

　　提出无监督的时间建模方法；GRU；用于complex event detection and video captioning（字幕）。

TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering

- 
- RNN；LSTM，视频问答
- 首尔大学（Seoul National University）；雅虎yahoo research

Unified Embedding and Metric Learning for Zero-Exemplar Event Detection

- 2017/5/5  
- CNN   
- quva实验室，阿姆斯特丹大学[荷兰]

　　为了零样本事件检测的统一嵌入与度量学习；基于内容的视频检索；给一个事件的描述文本，检索出相关视频的排行榜。

VGR-Net: A View Invariant Gait Recognition Network

- 2017年10月
- VGR-Net；视图不变步态识别网络
- Indian Institute of Technology Mandi(印度理工学院)

　　多视角步态识别；3D-CNN；两阶段（第一阶段，是分类网络，进行视点角度的表示；第二阶段，是一组网络，每一个子网络表示不同角度下的人）。

AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions

- 2017年7月   
- AVA数据集    
- google

　　人类动作识别数据集AVA（atomic visual actions，原子视觉动作），提供扩展视频序列中每个人的多个动作标签，精确标注多人动作，我们将动作标签限制在固定的3s时间内。
　　[电影」和「电视」类别，选择来自不同国家的专业演员。我们对每个视频抽取 15 分钟进行分析，并统一将 15 分钟视频分割成 300 个非重叠的 3 秒片段。采样遵循保持动作序列的时间顺序这一策略。

Interpretable Transformations with Encoder-Decoder Networks

- 2017年10月
- 人脸识别的一种主流算法--自编码器
- 伦敦大学

　　自编码器+3D人脸；人脸识别

Large-Scale 3D Shape Reconstruction and Segmentation from ShapeNet Core55

- 2017年10月  
- 数据集   
- 10+个大学与公司共同合作

　　ShapeNet Core55；3D形状重建和语义分割数据集；数据类型是点云和体素；数据集的生成方法中包含了多个网络（全部数据集都是用DL的方法生成的）。