【机器学习】多标签分类multi-label classification总结

最新推荐文章于 2024-07-29 17:57:20 发布

zkq_1986

最新推荐文章于 2024-07-29 17:57:20 发布

阅读量3.3w

点赞数 12

分类专栏： Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zkq_1986/article/details/79420008

版权

Machine Learning 专栏收录该内容

40 篇文章 3 订阅

订阅专栏

多标签学习算法分为量大类：

1）改造数据适应算法

2）改造算法适应数据

1 改造数据

（1）二分类

用L个分类器，分别对应L个标签，进行训练。

（2）标签排序+二分类

利用“成对比较”（pairwise comparison），获得L(L-1)/2个分类器，然后利用投票，得到标签的排序。接着，利用二分类，补充标签排序的投票结果，提高准确性。

（3）随机k标签

从L个标签随机取得k个标签，重复n次，获得n个分类器。这个过程有点类似随机森林。然后利用多类分类器（multi-class，与multi-label是有区别的），训练数据，最后通过投票，如果对于某一标签，其实际获得的投票数占到最大可能的投票数一半以上，那么就认为当前实例属于该标签。

实验中，通常k设为3，n设为2L。

举个例子：

【数据集】

x1, (l₁,l₂,l₃)

x2, (l₁,l₂)

x3, (l₂,l₄)

当前数据集，总共标签数为4个，那么所有标签组合为2⁴=16。将((l₁,l₂,l₃))转为新类l₁’，(l₁,l₂)转为一个新类l₂’，(l₂,l₄)转为一个新类l₃’，得到3个新类，这样就能利用多类分类器训练转换后的数据集。

2 改造算法

（1）ML-knn

机器学习-k最近邻

首先，利用knn获得未知实例x的k个近邻。针对标签j，在该k个近邻中出现c_j次。

其次，利用条件概率，判断x赋予标签j的可能性。假设h_j表示x属于标签j事件，￢h_j表示x不属于标签j事件。那么假定x要属于标签j，需要满足：

P(h_j|c_j)/P(￢h_j|c_j)>1

（2）RankSVM

用wj和wk分别代表标签j和k的权重，按照类似排序的算法，在标签中，以相关或不相关作为判断。假定实例x与标签j相关，与标签k不相关，那就会转换成新的标签1；反之，就会转换成新的标签-1。

3 评价指标

目前并不存在适用于所有问题的“通用的（general-purpose）”多标记评价指标，其选择依赖于具体的学习任务。例如，对于“分类（classification）”任务而言，采用基于样本的评价指标如hamming loss可能比较合适；而对于“检索（retrieval）”任务而言，采用基于类别的评价指标如micro-averaged precision 可能比较合适。

（1）hamming loss

采用预测的标签集合与实际的标签集合按汉明距离的相似度来衡量。汉明距离值越小说明越相似，即hamming loss越小，从而学习系统的性能越好。

（2）micro-averaging

（3）ranking loss

关注

12
点赞
踩
89

收藏

觉得还不错? 一键收藏
3
评论
【机器学习】多标签分类multi-label classification总结

多标签学习算法分为量大类：1）改造数据适应算法2）改造算法适应数据1 改造数据（1）二分类用L个分类器，分别对应L个标签，进行训练。（2）标签排序+二分类利用“成对比较”（pairwise comparison），获得L(L-1)/2个分类器，然后利用投票，得到标签的排序。接着，利用二分类，补充标签排序的投票结果，提高准确性。（3）随机k标签从L个标签随机取得k个标签，重复n次，获得n个分类器。这...
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。