A Domain Based Approach to Social Relation Recognition
- 2017/4/21
- CNN
- 马克斯普朗克信息研究所(Max Planck Institute for Informatics)【德】
社会关系;视觉与社会心理学的融合;很奇怪的研究。
Bidirectional Multirate Reconstruction for Temporal Modeling in Videos
- 2016/11/28
- RNN
- 悉尼科技大学
提出无监督的时间建模方法;GRU;用于complex event detection and video captioning(字幕)。
TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering
-
- RNN;LSTM,视频问答
- 首尔大学(Seoul National University);雅虎yahoo research
Unified Embedding and Metric Learning for Zero-Exemplar Event Detection
- 2017/5/5
- CNN
- quva实验室,阿姆斯特丹大学[荷兰]
为了零样本事件检测的统一嵌入与度量学习;基于内容的视频检索;给一个事件的描述文本,检索出相关视频的排行榜。
VGR-Net: A View Invariant Gait Recognition Network
- 2017年10月
- VGR-Net;视图不变步态识别网络
- Indian Institute of Technology Mandi(印度理工学院)
多视角步态识别;3D-CNN;两阶段(第一阶段,是分类网络,进行视点角度的表示;第二阶段,是一组网络,每一个子网络表示不同角度下的人)。
AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions
- 2017年7月
- AVA数据集
- google
人类动作识别数据集AVA(atomic visual actions,原子视觉动作),提供扩展视频序列中每个人的多个动作标签,精确标注多人动作,我们将动作标签限制在固定的3s时间内。
[电影」和「电视」类别,选择来自不同国家的专业演员。我们对每个视频抽取 15 分钟进行分析,并统一将 15 分钟视频分割成 300 个非重叠的 3 秒片段。采样遵循保持动作序列的时间顺序这一策略。
Interpretable Transformations with Encoder-Decoder Networks
- 2017年10月
- 人脸识别的一种主流算法--自编码器
- 伦敦大学
自编码器+3D人脸;人脸识别
Large-Scale 3D Shape Reconstruction and Segmentation from ShapeNet Core55
- 2017年10月
- 数据集
- 10+个大学与公司共同合作
ShapeNet Core55;3D形状重建和语义分割数据集;数据类型是点云和体素;数据集的生成方法中包含了多个网络(全部数据集都是用DL的方法生成的)。