最新论文阅读（5）

最新推荐文章于 2022-05-25 13:37:53 发布

whitenightwu

最新推荐文章于 2022-05-25 13:37:53 发布

阅读量512

点赞数

分类专栏：深度学习论文阅读深度学习--最新论文

本文链接：https://blog.csdn.net/wydbyxr/article/details/80601452

版权

深度学习论文阅读同时被 2 个专栏收录

66 篇文章 2 订阅

订阅专栏

深度学习--最新论文

19 篇文章 7 订阅

订阅专栏

Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding

- 2017年10月  
- 层次化的 LSTM 模型（树形结构）
- 阿里iDST、西安电子科大、西安交大

　　基于层次化多模态LSTM的视觉语义联合嵌入；CV和NLP两个领域联合起来,解决「视觉-语义联合嵌入 (Visual-Semantic Embedding)」任务，即将图像及语句表示成一个固定长度的向量，进而嵌入到同一个矢量空间中，通过该空间中的近邻搜索可以实现图像和语句的匹配、检索等。常见应用就是Image Captioning，即文字-图像联合的“看图说话”。
　　第一步从图像中找出一些显著性区域，并用具有描述性的短语描述每个区域；第二步将这些短语组合成一个非常长的具有描述性的句子。

Hierarchical Surface Prediction for 3D Object Reconstruction

- 2017年4月
- 编码解码器，coarse2fine
- 伯克利

　　从单张色彩图像重建出高质量的3D几何结构。逐步建立3D模型（coarse2fine）的思想。先在大的体素下分类（每一个块被分类成空闲空间、被占空间或分界表面），再将一个大体素分为多个小体素进行分类。降低了运行时间；在ShapeNet数据集上，得到更高分辨率、更多细节的3D模型，但仍不是超高分辨率。

Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro

- ICCV2017  
- 行人重识别
- 悉尼科技大学

　　集中讨论了如何利用GAN生成的图像(unsupervised learning) 辅助原有的图像分类／检索问题（supervised learning），希望能提供一个新的view来看待／利用生成数据。
　　提出一个新的行人重识别数据集 DukeMTMC-reID。

Deep Voice 1/2/3

- 2017年1月
- 文本转语音TTS
- 百度

　　用于从文本合成人工语音，即文本转语音（TTS）。
　　Voice1：使用了 CTC（connectionist temporal classification）损失函数；是wavenet的变体。
　　Voice2：使用低维可训练的说话人嵌入（embedding）来从单个模型中生成不同的声音；多说话人语音合成。
　　voice3：网络结构是编码器（将文本特征转换为内部学习表征）+解码器（将表征向量以一种注意机制解码（即自动回归）为低维声音表征）+转换器（一种全卷积后处理网络，可以从解码的隐藏状态预测最后输出的特征，是非因果的，因此可以依赖未来的语境信息）。
　　

Gated Orthogonal Recurrent Units: On Learning to Forget

- 2017年10月
- modelRELU
- 麻省理工大学；蒙特利尔大学

　　在GRU 的基础上做了两个修改，一是将参数矩阵 U 变为正交矩阵，而是将 tanh 改为论文提的 modelRELU()，对于某些实验有较明显的提高。
def modReLU(z, b):（b指的就是卷积的偏置）　　 z_norm = math_ops.abs(z) + 0.00001 　　 step1 = nn_ops.bias_add(z_norm, b) 　　 step2 = nn_ops.relu(step1) 　　 step3 = math_ops.sign(z) 　　 return math_ops.multiply(step3, step2)

whitenightwu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最新论文阅读（5）

Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding- 2017年10月 - 层次化的 LSTM 模型（树形结构）- 阿里iDST、西安电子科大、西安交大　　基于层次化多模态LSTM的视觉语义联合嵌入；CV和NLP两个领域联合起来,解决「视觉-语义联合嵌入 (Visual-Semantic Embeddin...
复制链接

扫一扫