image captioning综述入门二
0.入门二《Deep Visual-Semantic Alignments for Generating Image Descriptions》1.Show and Tell:神经图像字幕生成器 2015原理:利用了机器翻译的思想,将图像提取出抽象的特征,再将特征作为输入来生成自然语言,如下图:模型优化目标:其中,I代表图像,S代表对应的描述,θ代表模型的参数。在给定图像和参数时使生成描述S的概率最大,从而得到参数,以此来训练模型。论文链接:https://arxiv.org/pdf/141



