极限多标签之CRAFTML

本文介绍了CRAFTML,这是一种在ICML2018上提出的简单而高效的随机森林方法,特别适用于极端多标签学习。它通过聚类和随机森林相结合来提升分类性能。首先,对样本和标签进行降维,然后基于降维后的标签空间进行聚类,形成分类器。每个树的构建过程中,节点划分基于样本数、特征一致性或标签一致性。文章讨论了不同优化和降维技术的相关工作,并分析了计算复杂度。尽管方法简单,但确定最佳簇数量仍是个挑战。
摘要由CSDN通过智能技术生成

《CRAFTML, an Efficient Random Forest for Extreme multi-label learning》, ICML2018 – 阅读笔记

方法以及理论性比其FastXML和PfastreXML要简单不少。核心思想:聚类+随机森林

相关工作部分介绍的似乎比较全面。

相关工作

优化技巧和并行 代表工作:PDSparse, PPDSparse (是PDSparse的
并行化拓展),DISMEC。
降维代表工作:WSABIE, LEML, SLEEC, AnnexML。
基于Tree的方法,代表工作:LPSR, FastXML, PFastReXML, PLT。
其中LPSR,FastXML和PFastReXML都是对样本空间进行划分,相似的样本和对应的标签被重组到相同的subset。
PLT则是对标签空间进行划分,直到每个标签子集只包含一个标签。

本文工作

本文构建一个随机森林,其中每一颗树(k叉)由算法1递归构建。
在这里插入图片描述

其中testStopCondition为停止准则,只要满足one of:
(1) 节点的样本数小于阈值;
(2) 节点的所有实例具有相同的特征;or
(3) 节点的所有实例具有相同的标签。
其中trainNodeClassifier由算法2给出:
算法2

可以看到,算法2实际上就是先对样本空间和标签空间进行降维,然后进行聚类,注意,这里聚类是根据降维后的标签空间进行的。
将标签聚类成k个簇,然后k个簇的样本中心构成了不同的分类器(在预测的时候,样本根据与中心的距离决定path),这k个簇也就构成了当前节点的k个子节点。
computeMeanLabelVector就是保留叶子节点所有标签的均值。

要注意对随机投影矩阵 P x , P y P_x,P_y Px,Py
(1) 每个树都不一样,保证随机性;
(2) 考虑两种随机投影技术:一种是产生于标准高斯分布(不懂),另外一种产生于稀疏正交投影(也被称为hashing trick),本文偏爱后者。
对聚类而言,初始簇中心采用k-means++策略,样本通过球形kmeans(Loyd算法)进行划分,距离度量采用cosine。

本文的算法部分相当简单,在这之后本文分析了一系列的计算复杂度,也都比较简单。

总结

本文提出了一种基于聚类的随机森林集成方法进一步提升了XMC的分类性能。
关键点:
(1) 对样本标签进行聚类,k个簇构成k个子节点。
(2) 对样本和标签都进行低维映射,降低了计算复杂度。

优点:实现简单,易于理解,不依赖复杂的优化scheme,计算复杂度低;缺点:不容易确定簇的个数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值