原文:基于 Pytorch 的鞋子标签自动标注[译] - AIUAI
涉及的问题是对文本生成描述文本(generating text to describe images).
可行的解决方案有两种:
[1] - 采用 CNNs 进行特征提取,然后将提取的特征送入 LSTM,以生成最终的描述文本.
[2] - 构建 multi-label 分类模型,输出的每个节点(node) 分别对应特定的标签(tag).
第一种方案对于生成具有语法结构(grammatical structure) 的图像描述比较有优势.
第二种方案的多标签分类模型用于对于有限个标签(tags) 的生成与标注. 标签的数量可以足够大,只要有模型训练数据.
由于目的是,只采用图像作为输入,生成鞋子的标签标注,故这里采用 Multi-label 分类模型.
不采用 CNN+LSTM 的原因是,第一,这里不需要 English 等的语法结构(这是 LSTM 的作用);第二,需要更多的手工标注数据.
希望的是,采用预训练的网络模型&#