《Cost-Effective Active Learning for Hierarchical Multi-Label Classification》--阅读笔记-IJCAI

Authors

Yi-Fan Yan , Sheng-Jun Huang

Motivation

多标签学习(multi-label learning,MLL)是一种实用而有效的学习框架,适用于语义复杂的对象,每个实例可以同时与多个类标签相关联。但当输出空间远远大于单标签学到的信息时,通常需要一个大的标签数据集来训练一个有效的MLL模型。此外,当有大量候选标签时,多标签对象的注释成本可能非常高。主动洗就是一个很好的突破口,但是很多method没有关注label之间的correlation,特别是对于fine-grain的任务,从coarse到fine的知识学习。作者认为这种label的hierarchy中包含了非常多的信息,举例:label 一只dog比较容易,但是label一只 poodle就比较困难。

Contributions

  • 提出了一种新的batch处理模式主动学习方法,利用标签层次结构进行cost-efficient的多标签分类。
  • 提出了一种新的对实例标签包含信息性多少的估计准则,该准则不仅考虑了当前查询的有用性,而且考虑了查询后ancestor和descendant标签的潜在贡献。此外,允许层次树的不同级别的标签具有不同的注释成本。在每次迭代中,通过自动最大化instance的信息量,同时最小化整个注释成本来选择一批实例标签对。通过一个双向目标优化问题实现了成本效益的选择。

Method

首先定义,做一些formulation。作者先评估了instant-label里面包含的信息,然后提出了如果做selection的方法

Informativeness for Hierarchical Labels

是样本,是标签,表明的是样本经过model 之后评估出来是的相关性。因此,相关的时候,那么他们的ancestor也是呈相关的。如果 不相关,相应的,他们的descentant也是不相关的。 当然而作者认为单纯用这个方案并不能完全的evaluate到相关性,因此这对ancestor和descentant也应该贡献到当前的相似度上去。因此每一对有两种情况需要讨论:

,但是在query操作之前,我们是不知道的。作者因此,作者先使用K邻近算法对计算,然后用majority voting得到这一pair的相关性。有:

是k邻近。如果x是个打了标签的,那么就是标签y,如果x没打标签那么就是。计算当前结点的ancestor和descentant的uncertainty为,(细节就不写了,文章有)

 

Cost-effective Selection

核心的计算为

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值