All mistakes are not equal: Comprehensive Hierarchy Aware Multi-label Predictions (CHAMP)
abstract
这篇论文考虑层级多标签分类(HMC)已存在的问题:每个样本可以存在多个标签;标签基于一颗领域内的层级树。基于所有错误不平等的直觉,我们提出Comprehensive hierarchy aware multi-label predictions(CHAMP),根据层次结构树的严重性对错误预测进行惩罚。基于此的单标签的工作有,而多标签的工作很少,主要原因是没有明确的先验方法来量化多标签设置中错误预测的严重性。多模态(text、audio、image)做实验。
因为没有办法直接量化预测值和真实值之间的距离,所以多标签一直用BCE做loss损失,本论文引入简单的距离公式解决这一问题,且效果提升较多。
preliminaries and problem setting
{ ( x i , y i ) : i = 1 , . . . , n } \{(x_i,y_i):i=1,...,n\} {(xi,yi):i=1,...,n}有标签的训练样本,其中 x i ∈ ∣ R d x_i\in|R^d xi∈∣Rd是输入样本, y i ∈ { 0 , 1 } L y_i\in \{0,1\}^L yi∈{
0,1}L是对应的标签向量,L是标签的数量。
τ \tau τ是包含L个节点的层级树
目标是训练一个预测模型 ζ \zeta ζ以x为输入,输出一个L维的向量 y ˉ ∈ [ 0 , 1 ] L \bar y\in[0,1]^L yˉ∈[0,1]L,给定阈值以后,将 y ˉ \bar y yˉ给出最后的输出。
metrics
precision、recall、AUPRC(area under the precision-recall curve)、precison@K、F1@K
介绍几个概念,将会帮助后续量化错误预测的严重性
树上的两个节点 j , j ′ ∈ ∣ L ∣ j,j^{'}\in |L| j,j′∈∣L∣, d i s t ( j , j ′ ) dist(j,j^{'}) dist(j,j′)代表两个节点之间的距离
树上的节点集合 S ⊆ ∣ L ∣ S\subseteq|L| S⊆∣L∣, d i s t ( j , S ) ≡ min j ′ ∈ S d i s t ( j , j ′ ) dist(j,S) \equiv \min_{j^{'}\in S} dist(j,j^{'}) dist(j,S)≡minj