关联规则(Association Rules)与图像检索

《A New Multimodal Fusion Method Based on Association Rules Mining for Image Retrieval》(2017 IEEE)

所谓关联规则,是反映一个事物与其他事物之间的相互依存性和关联性,用于从大量数据中挖掘出有价值的数据项之间的相互关系。常用的指标是support和confidence。Support表示几个关联的数据在数据集中出现的次数占总数据集的比重,可以理解为联合概率;而confidence则表示一个数据出现后,另一个数据出现的概率,即数据的条件概率。最常见的例子就是根据超市的购买清单来确定不同商品之间存在的关联性。这里就不再赘述这个例子。

了解了以上内容之后,我认为把关联规则应用在数据检索问题上时,有两个主要的重点/难点:

  1. 超市中的商品都有固定的商品名,在清单上都有统一的表示,因此在计算频繁项集的时候就很简单,只需用Apriori或者其他算法直接进行统计归纳即可。但是向图片或文字这些数据就不一样了,即便是内容相似的文字,其表现也是不一样的,更不用说图片和文字这两种不同类型的数据。所以在应用关联规则之前,就需要对数据进行一些特征提取、分类/聚合等操作,使得这些数据能够变成像超市商品一样简单、清晰的item。

  2. 从目前检索领域的研究来看,关联规则并不是主流的方法。大多数检索都是按照“特征提取→映射到公共空间获得统一表示→计算相似度(距离度量)→取排名靠前的作为检索结果”这样的大致框架来进行的。因此有必要证明关联规则应用在检索问题上的合理性和有效性。对于这一点,我能想到的办法就是把提出的方法和当前最主流、最先进的方法进行比较,从复杂度或者精确度等方面证明其合理性。

文章提出的方法叫做基于关联规则的多峰融合方法(MFAR),即可以用文本检索相关的图像,也可以用图像检索图像。MFAR大致上由两个阶段组成:离线阶段和在线阶段。离线阶段主要解决三件事:特征提取、聚类和关联规则挖掘。而在线阶段则回归大主题——使用离线阶段生成的关联规则来进行检索。

这里给出了离线阶段的示意图:
在这里插入图片描述
离线阶段中,首先对图像和相应的文本描述进行特征提取,图像采用MPEG-7描述符,文本则采用词袋向量。然后用NOHIS + K-means算法来进行聚类。在计算support和confidence值之前,考虑到如果采用标准的定义式来进行计算,那么最后得到的值会非常低,从而影响后面的生成规则。因此,这里作者对计算公式进行了修改:
在这里插入图片描述
进一步推广到一个文本描述对应多张图像的情况:
在这里插入图片描述
在计算support和confidence值之后,就开始挖掘频繁项集。文章对Apriori算法也进行了部分改进,这里给出了改进后的算法伪代码:
在这里插入图片描述
可以看出,改进后的算法和原有的Apriori算法不同,是从频繁2项集开始而不是频繁1项集。这是因为目的是要构建文本和图像之间的对应关系,如果从频繁1项集开始的话,文本特征和图像特征会被平等对待,那么就不存在对应关系了。

离线阶段的最后,计算所有候选项集的confidence,如果大于等于minconf则为强关联,否则就丢掉。

然后是在线阶段,这里同样也给出了示意图:
在这里插入图片描述
图中给出了两种不同的输入:Image query和Text query,表示即可以进行图像检索,也可以用关键字检索。在输入query图像/文本之后,系统会提取其特征,然后在已经生成的NOHIS树中检索与之接近的cluster。文章计算了排名前500的nearest neighbor,使用欧氏距离作为度量标准。然后将这500个结果作为输入,在ARM中检索并获取包含这些cluster的强关联规则,再进一步根据检索到的强关联规则获取相关图像。最后对相关分数进行排序。由于相关分数是从不同特征空间中生成的,所以要先将其统一映射在[0,1]的范畴内,再使用Combsum方法将其融合,作为最后用来评估的分数。(这个Combsum方法是在一本叫做《data fusion in information retrieval》的书中被提出的,是一种统计学方法。)

实验部分使用的数据集是ImageCLEF 2011 Wikipedia数据集,采用的评估指标是P@10,P@20和平均精度(AP)值,将提出的MFAR与称为MMRetrieval的在线图像检索系统和建议的系统进行了比较。
在这里插入图片描述
在这里插入图片描述结果表明,带有复合查询(图像+关键字)的MFAR的精度要优于其他两个系统。此外,所提出的MFAR和MMRetrieval系统也仅通过图像查询而不使用文本进行了评估,与MMRetrieval系统相比,MFAR的精度仍然更优。

总结

从实验结果和文中给出的示例来看,在MFAR中,排名前十的结果显示了语义相关的图像,这些图像不仅来自查询图像的视觉特征,而且它们来自各种颜色和形状。相反,MMRetrieval的前十个结果仅取决于查询的视觉特征。也就是说引入关联规则的MFAR能够在更细的粒度上进行检索。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值