Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding
- 2017年10月
- 层次化的 LSTM 模型(树形结构)
- 阿里iDST、西安电子科大、西安交大
基于层次化多模态LSTM的视觉语义联合嵌入;CV和NLP两个领域联合起来,解决「视觉-语义联合嵌入 (Visual-Semantic Embedding)」任务,即将图像及语句表示成一个固定长度的向量,进而嵌入到同一个矢量空间中,通过该空间中的近邻搜索可以实现图像和语句的匹配、检索等。常见应用就是Image Captioning,即文字-图像联合的“看图说话”。
第一步从图像中找出一些显著性区域,并用具有描述性的短语描述每个区域;第二步将这些短语组合成一个非常长的具有描述性的句子。
Hierarchical Surface Prediction for 3D Object Reconstruction
- 2017年4月
- 编码解码器,coarse2fine
- 伯克利
从单张色彩图像重建出高质量的3D几何结构。逐步建立3D模型(coarse2fine)的思想。先在大的体素下分类(每一个块被分类成空闲空间、被占空间或分界表面),再将一个大体素分为多个小体素进行分类。降低了运行时间;在ShapeNet数据集上,得到更高分辨率、更多细节的3D模型,但仍不是超高分辨率。
Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro
- ICCV2017
- 行人重识别
- 悉尼科技大学
集中讨论了 如何利用GAN生成的图像(unsupervised learning) 辅助原有的图像分类/检索问题(supervised learning),希望能提供一个新的view来看待/利用生成数据。
提出一个新的行人重识别数据集 DukeMTMC-reID。
Deep Voice 1/2/3
- 2017年1月
- 文本转语音TTS
- 百度
用于从文本合成人工语音,即文本转语音(TTS)。
Voice1:使用了 CTC(connectionist temporal classification)损失函数;是wavenet的变体。
Voice2:使用低维可训练的说话人嵌入(embedding)来从单个模型中生成不同的声音;多说话人语音合成。
voice3:网络结构是编码器(将文本特征转换为内部学习表征)+解码器(将表征向量以一种注意机制解码(即自动回归)为低维声音表征)+转换器(一种全卷积后处理网络,可以从解码的隐藏状态预测最后输出的特征,是非因果的,因此可以依赖未来的语境信息)。
Gated Orthogonal Recurrent Units: On Learning to Forget
- 2017年10月
- modelRELU
- 麻省理工大学;蒙特利尔大学
在GRU 的基础上做了两个修改,一是将参数矩阵 U 变为正交矩阵,而是将 tanh 改为论文提的 modelRELU(),对于某些实验有较明显的提高。
def modReLU(z, b):(b指的就是卷积的偏置)
z_norm = math_ops.abs(z) + 0.00001
step1 = nn_ops.bias_add(z_norm, b)
step2 = nn_ops.relu(step1)
step3 = math_ops.sign(z)
return math_ops.multiply(step3, step2)