七. 图像生成文本

一. 问题介绍

1. Deep Learning 出现之前

不能提取图像的抽象信息

不能生成有意义的句子

检索问题:从候选句子中选择最匹配的

无法泛化:对新图像没有结果

2. 图像生成文本的应用

图像搜索——丰富图像搜索元数据,增强搜索结果

盲人导航

少儿教育

3. 图像生成问题的评测

3.1 BLEU score

(1) N-gram Match = Match_items / all items in result

eg1:

  1. 1- gram: 4/5
  2. 2- gram: 2/4
  3. 3- gram:0

eg2:

  1. 1- gram: 5/5 (显然不太合理,因为其实只匹配到了一个词“课程“)

(2) N-gram改进

N-gram Match = Min(matched_items,. Match_items_in_gt)/ items in result

Corrent 1-gram: 1/5

eg3:

  1. 1-gram:2/2

 (3) 短句惩罚

其中,r表示实际句子的长度,c表示预测句子的长度

3.2 图像检索

3.3 人工评测

 

二. 图像生成文本建模

 

 

1. Beam Search生成文本

2. Multi-Model RNN

 

 

 

3. Show and Tell

 

 

 

 

 

 

4. Top-Down Bottom-Up Attention

 

 

5. 总结

(1)Multi-Modal RNN

每一步需要图像特征输入

普通的RNN

(2)Show and Tell

LSTM:使得同样的图像特征没必要重复输入

使得词语的原始embedding没必要输入

(3)Show attenttend and Tell

引入attention机制,每个词语可以对应图片不同的位置

每一步都需要输入图像加权特征

(4)Bottom-up top-down attention

分层机制解决一个LSTM同时学习两件事情的过载问题。

三. 反问题:文本生成图像

 

 

 

相关代码,详见github:https://github.com/crystal30/Deep_learning, 5_1——5_4

 

 

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值