一. 问题介绍
1. Deep Learning 出现之前
不能提取图像的抽象信息
不能生成有意义的句子
检索问题:从候选句子中选择最匹配的
无法泛化:对新图像没有结果
2. 图像生成文本的应用
图像搜索——丰富图像搜索元数据,增强搜索结果
盲人导航
少儿教育
3. 图像生成问题的评测
3.1 BLEU score
(1) N-gram Match = Match_items / all items in result
eg1:
- 1- gram: 4/5
- 2- gram: 2/4
- 3- gram:0
eg2:
- 1- gram: 5/5 (显然不太合理,因为其实只匹配到了一个词“课程“)
(2) N-gram改进
N-gram Match = Min(matched_items,. Match_items_in_gt)/ items in result
Corrent 1-gram: 1/5
eg3:
- 1-gram:2/2
(3) 短句惩罚
其中,r表示实际句子的长度,c表示预测句子的长度
3.2 图像检索
3.3 人工评测
二. 图像生成文本建模
1. Beam Search生成文本
2. Multi-Model RNN
3. Show and Tell
4. Top-Down Bottom-Up Attention
5. 总结
(1)Multi-Modal RNN
每一步需要图像特征输入
普通的RNN
(2)Show and Tell
LSTM:使得同样的图像特征没必要重复输入
使得词语的原始embedding没必要输入
(3)Show attenttend and Tell
引入attention机制,每个词语可以对应图片不同的位置
每一步都需要输入图像加权特征
(4)Bottom-up top-down attention
分层机制解决一个LSTM同时学习两件事情的过载问题。
三. 反问题:文本生成图像
相关代码,详见github:https://github.com/crystal30/Deep_learning, 5_1——5_4