什么是高质量的Ground Truth?
- Q:如何判断图像和文本是高质量的标注?
- A:找到了针对图像和文本标注质量评估的算法:MV&EM&RY、CIDEr&SPICE
- D&S算法是基于EM算法的改进算法
- 两个针对图像描述的文本质量评估算法:
- CIDEr
- CIDEr算法将每个句子都看作“文档”, 将其表示成TF-IDF向量的形式, 通过对每个n元组进行(TF-IDF)权重计算, 比较模型生成的描述与人工描述之间的余弦相似度.如果余弦相似度越高, 则代表图像描述的质量越好。
- SPICE
- 基于图的语义表示来编码标注数据中的对象、属性和关系.将待评价Caption和人工标注Caption用概率上下文无关文法依赖解析树[88]解析成语法依赖树, 然后用基于规则的方法把依赖解析树映射成场景图, 最后用F-score来评估两个场景图的相似性.分值越高, 则表示图像的描述质量越好.
- CIDEr