最新论文阅读(5)

Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding

- 2017年10月  
- 层次化的 LSTM 模型(树形结构)
- 阿里iDST、西安电子科大、西安交大

  基于层次化多模态LSTM的视觉语义联合嵌入;CV和NLP两个领域联合起来,解决「视觉-语义联合嵌入 (Visual-Semantic Embedding)」任务,即将图像及语句表示成一个固定长度的向量,进而嵌入到同一个矢量空间中,通过该空间中的近邻搜索可以实现图像和语句的匹配、检索等。常见应用就是Image Captioning,即文字-图像联合的“看图说话”。
  第一步从图像中找出一些显著性区域,并用具有描述性的短语描述每个区域;第二步将这些短语组合成一个非常长的具有描述性的句子。


Hierarchical Surface Prediction for 3D Object Reconstruction

- 2017年4月
- 编码解码器,coarse2fine
- 伯克利

  从单张色彩图像重建出高质量的3D几何结构。逐步建立3D模型(coarse2fine)的思想。先在大的体素下分类(每一个块被分类成空闲空间、被占空间或分界表面),再将一个大体素分为多个小体素进行分类。降低了运行时间;在ShapeNet数据集上,得到更高分辨率、更多细节的3D模型,但仍不是超高分辨率。


Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro

- ICCV2017  
- 行人重识别
- 悉尼科技大学

  集中讨论了 如何利用GAN生成的图像(unsupervised learning) 辅助原有的图像分类/检索问题(supervised learning),希望能提供一个新的view来看待/利用生成数据。
  提出一个新的行人重识别数据集 DukeMTMC-reID。


Deep Voice 1/2/3

- 2017年1月
- 文本转语音TTS
- 百度

  用于从文本合成人工语音,即文本转语音(TTS)。
  Voice1:使用了 CTC(connectionist temporal classification)损失函数;是wavenet的变体。
  Voice2:使用低维可训练的说话人嵌入(embedding)来从单个模型中生成不同的声音;多说话人语音合成。
  voice3:网络结构是编码器(将文本特征转换为内部学习表征)+解码器(将表征向量以一种注意机制解码(即自动回归)为低维声音表征)+转换器(一种全卷积后处理网络,可以从解码的隐藏状态预测最后输出的特征,是非因果的,因此可以依赖未来的语境信息)。
  


Gated Orthogonal Recurrent Units: On Learning to Forget

- 2017年10月
- modelRELU
- 麻省理工大学;蒙特利尔大学

  在GRU 的基础上做了两个修改,一是将参数矩阵 U 变为正交矩阵,而是将 tanh 改为论文提的 modelRELU(),对于某些实验有较明显的提高。
def modReLU(z, b):(b指的就是卷积的偏置)
   z_norm = math_ops.abs(z) + 0.00001
   step1 = nn_ops.bias_add(z_norm, b)
   step2 = nn_ops.relu(step1)
   step3 = math_ops.sign(z)
   return math_ops.multiply(step3, step2)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值