- NLP;
- Computer Vision;
- Commen-sence;
第一步生成答案,答案库
将机器视觉机器人整个问题简化
从“看到一个图就能回答所有问题”简化成,”从1000个最有可能的回答中找到最符合图片问题的答案“
第二步处理输入源数据
图片处理,处理到flatten的时候停止;
文字处理:以一个句子为例:What are they playing?
- Rule-based:基于主题,找到关键词,比如该句子属于玩这一类,然后从玩这一类训练出答案
- Word Vector:基于词向量
- RNN Language Model:考虑语境前后的关系
第三步选取VQA模型-MLP
或者可以将MLP换成LSTM
整个流程:
参考:
https://tianchi.aliyun.com/course/courseConsole?courseId=192&chapterIndex=9§ionIndex=1