多标签分布/多标记分布

最新推荐文章于 2024-06-03 12:25:08 发布

机器学习的小学生

最新推荐文章于 2024-06-03 12:25:08 发布

阅读量6.1k

点赞数

分类专栏：多标记分布\LDL

本文链接：https://blog.csdn.net/raby_gyl/article/details/53432026

版权

多标记分布\LDL 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

多标记分布的损失函数:

根据分布之间距离或者相似度不同的衡量标准，可构成不同的优化目标。下面采用KL散度作为概率分布之间的距离：

θ * = a r g min θ \sum i \sum j (d y j x i ln d y j x i p ( y j | x i ; θ )) = a r g max θ \sum i \sum j d y j x i ln p (y j | x i; θ)

$\begin{equation} \begin{aligned} \boldsymbol{\theta}^*=& arg\min_{\boldsymbol \theta} \sum_i \sum_j \left ( d_{\boldsymbol x_i}^{y_j} \text{ln } \frac{d_{\boldsymbol x_i}^{y_j} }{p(y_j| \boldsymbol x_i; \boldsymbol \theta)} \right )\\ &=arg\max_{\boldsymbol \theta} \sum_i \sum_j d_{\boldsymbol x_i}^{y_j} \text{ln } {p(y_j|\boldsymbol x_i;\boldsymbol \theta)} \end{aligned} \end{equation}$
利用

ln (x/y)=ln x−ln y $\text{ln }(x/y)=\text{ln } x-\text{ln }y$ 很容易得到。其中

dxi $d_{\boldsymbol x_i}$ 表示表示样本

xi $x_i$ 的标签分布，例如当

yi $y_i$ 具有5个取值时，

dxi={dy1xi,dy2xi,dy3xi,dy4xi,dy5xi}={0.1,0.1,0.4,0.2,0.2} $d_{\boldsymbol x_i}=\{d_{\boldsymbol x_i}^{y_1},d_{\boldsymbol x_i}^{y_2},d_{\boldsymbol x_i}^{y_3},d_{\boldsymbol x_i}^{y_4},d_{\boldsymbol x_i}^{y_5}\}=\{0.1,0.1,0.4,0.2,0.2\}$ ，其和为1。

p(yj|xi;θ) $p(y_j|\boldsymbol x_i;\boldsymbol \theta)$ 表示在参数为

θ $\theta$ 的分布下，样本

xi $\boldsymbol x_i$ 的“真实标签”

yj $y_j$ 的取值或者说概率。因此我们的主要任务就变成了如何学习模型参数

θ $\theta$ ，但是函数

p(yj|xi;θ) $p(y_j|\boldsymbol x_i;\boldsymbol \theta)$ 具体形式还未确定，下面来确定一下其具体的表达式。

确定函数 $p(y_j|\boldsymbol x_i;\boldsymbol \theta)$

采用最大熵模型来定义函数： $p(y_j|\boldsymbol x_i;\boldsymbol \theta)$ :

p (y j | x i; θ) = 1 Z exp (\sum k θ y j, k g k (x i))

$p(y_j|\boldsymbol x_i;\boldsymbol \theta)=\frac{1}{Z} \text{exp }\left ( \sum_k \theta_{y_j,k} g_k(\boldsymbol x_i)\right )$
其中

Z=∑yexp(∑kθy,kgk(xi)) $Z=\sum_{y} \text{exp} (\sum_k \theta_{y,k} g_k(\boldsymbol x_i))$ ,

y $y$ 的为标签分布的取值空间，

k $k$ 为特征长度的取值空间。（文字描述的不严格，请详细理解）

因此，完整的损失函数为：

θ * = a r g max θ f (θ) = a r g max θ \sum i \sum j d y j x i ln p (y j | x i; θ) = a r g max θ \sum i \sum j d y j x i ln 1 \sum y exp ( \sum k θ y , k g k ( x ) ) exp (\sum k θ y j, k g k (x i))

$\begin{equation} \begin{aligned} \boldsymbol{\theta}^* & =arg \max_{\boldsymbol \theta} f(\boldsymbol \theta) \\ &=arg\max_{\boldsymbol \theta} \sum_i \sum_j d_{\boldsymbol x_i}^{y_j} \text{ln } {p(y_j|\boldsymbol x_i;\boldsymbol \theta)} \\ &=arg\max_{\boldsymbol \theta} \sum_i \sum_j d_{\boldsymbol x_i}^{y_j} \text{ ln } {\frac{1}{\sum_y \text{exp} (\sum_k \theta_{y,k} g_k(\boldsymbol x))} \text{exp }\left ( \sum_k \theta_{y_j,k} g_k(\boldsymbol x_i)\right ) } \end{aligned} \end{equation}$
很容易证明函数

f(θ) $f(\theta)$ 是凹函数。

f (θ) = \sum i \sum j d y j x i ln 1 \sum y exp ( \sum k θ y , k g k ( x ) ) exp (\sum k θ y j, k g k (x i))

$\begin{equation} \begin{aligned} f(\boldsymbol{\theta}) &=\sum_i \sum_j d_{\boldsymbol x_i}^{y_j} \text{ ln } {\frac{1}{\sum_y \text{exp} (\sum_k \theta_{y,k} g_k(\boldsymbol x))} \text{exp }\left ( \sum_k \theta_{y_j,k} g_k(\boldsymbol x_i)\right ) } \end{aligned} \end{equation}$
其中

dyjxi≥0 $d_{\mathbf x_i}^{y_j}\geq 0$ ,我们只需要证明下面的子函数为凹函数即可：

g (θ) = ln 1 \sum y exp ( \sum k θ y , k g k ( x i ) ) exp (\sum k θ y j, k g k (x i)) = ln exp (\sum k θ y j, k g k (x i)) - ln \sum y exp (\sum k θ y, k g k (x i)) = \sum k θ y j, k g k (x i) - ln \sum y exp (\sum k θ y, k g k (x i))

$\begin{equation} \begin{aligned} g(\boldsymbol{\theta}) &= \text{ ln } {\frac{1}{\sum_y \text{exp} (\sum_k \theta_{y,k} g_k(\boldsymbol x_i))} \text{exp }\left ( \sum_k \theta_{y_j,k} g_k(\boldsymbol x_i)\right ) } \\ &=\text{ ln } \text{exp} \left ( \sum_k \theta_{y_j,k} g_k(\boldsymbol x_i)\right )-\text{ ln }{\sum_y \text{exp} (\sum_k \theta_{y,k} g_k(\boldsymbol x_i))} \\ &={\color {red}{\sum_k \theta_{y_j,k} g_k(\boldsymbol x_i) }}-{ \color {blue}{\text{ ln }{\sum_y \text{exp} (\sum_k \theta_{y,k} g_k(\boldsymbol x_i))} }} \end{aligned} \end{equation}$
红色部分是仿射函数的线性组合，其是凹函数（或凸函数）。
已知函数:

h (z) = log (\sum i = 1 k e z i)

$h(z)=\text{ log }\left ( \sum_{i=1}^k e^{z_i}\right )$
是凸函数 [4]，并且

∑kθy,kgk(xi)) $\sum_k \theta_{y,k} g_k(\boldsymbol x_i))$ 是凸函数（或凹函数），那么蓝色的部分为凸函数。但是前面有个负号，因此是凹函数。则凹函数+凹函数，还是一个凹函数。因此函数

f(θ) $f(\boldsymbol \theta)$ 是凹函数。

矢量编程

函数 $f(\boldsymbol \theta)$ 的表达式中，还有三个叠加符号，即涉及到对样本 $i$ ，标签分布 $j$ ，以及特征索引 $k$ 的求和运算。在算法中可能要涉及到函数值的求解，因此我们也不可能在Matlab中套用三层for循环来求解。

函数值 $f(\boldsymbol \theta)$

假定训练数据具有格式(详细参考[5])：

trainFeature 为 [2000 2045]的矩阵，其中2000为样本的数量，2045为特征的长度. trainDistribution 为[2000 5]的矩阵，其中2000为样本数量，5为标签分布，并且满足，每行元素之和为1.

modProb = exp(trainFeature * weights); % size_sam * size_Y sumProb = sum(modProb, 2); modProb = modProb ./ (repmat(sumProb,[1 size(modProb,2)])); target = -sum(sum(trainDistribution.*log(modProb)));

由上述代码中可以看出，target= $-f(\boldsymbol \theta)$ ,其中 $\boldsymbol \theta$ 就是weights.其是大小为2045*5（特征长度*标签分布）

梯度grad( $\boldsymbol \theta$ )

从上述公式 $g_0(\boldsymbol \theta)=d_{\mathbf x_i}^{y_j}*g(\boldsymbol \theta)$ ，其相当于单个样本 $\mathbf x_i$ 对参数 $\theta_{y,k}$ 的变更。(注意这里的 $\boldsymbol \theta$ 只是总的参数的一个分量)：

$\partial g 0 ( θ ) \partial θ = d y j x i (g (x i) - \partial ln \sum y exp ( \sum k θ y , k g k ( x i ) ) \partial θ) = d y j x i g (x i) - d y j x i 1 \sum y exp ( \sum k θ y , k g k ( x i ) ) * \sum y (exp (\sum k θ y, k g k (x)) * g (x i))$ $\begin{equation} \begin{aligned} \frac{\partial g_0(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} &=d_{\mathbf x_i}^{y_j} \left (g(\boldsymbol x_i) -\frac{\partial \text{ ln }{\sum_y \text{exp} (\sum_k \theta_{y,k} g_k(\boldsymbol x_i))} }{\partial \boldsymbol{\theta}} \right )\\ &=d_{\mathbf x_i}^{y_j} g(\boldsymbol x_i) -d_{\mathbf x_i}^{y_j}\frac{1}{\sum_y \text{exp} (\sum_k \theta_{y,k} g_k(\boldsymbol x_i))}* \sum_y \left ( \text{exp} (\sum_k \theta_{y,k} g_k(\boldsymbol x))* g(\boldsymbol x_i) \right) \end{aligned} \end{equation}$
上述公式表达不够准确，其中第一项对应一个矢量，第二个项对应为一个矩阵。 $\sum_y$ 中的y控制更新那一列。梯度是一个矩阵的形式。那么针对其中一个元素的偏导数为：
$\partial g 0 ( θ ) \partial θ y j , k = d y j x i g k (x i) - d y j x i 1 \sum y exp ( \sum k θ y , k g k ( x i ) ) * (exp (\sum k θ y j, k g k (x)) * g k (x i)) = g k (x i) * (d y j x i - 1 \sum y exp ( \sum k θ y , k g k ( x i ) ) * exp (\sum k θ y j, k g k (x)))$ $\begin{equation} \begin{aligned} \frac{\partial g_0(\boldsymbol{\theta})}{\partial {\theta_{y_j,k}}} &=d_{\mathbf x_i}^{y_j} g_k(\boldsymbol x_i) -d_{\mathbf x_i}^{y_j}\frac{1}{\sum_y \text{exp} (\sum_k \theta_{y,k} g_k(\boldsymbol x_i))}* \left ( \text{exp} (\sum_k \theta_{y_j,k} g_k(\boldsymbol x))* g_k(\boldsymbol x_i) \right) \\ &=g_k(\boldsymbol x_i)* \left (d_{\mathbf x_i}^{y_j}-\frac{1}{\sum_y \text{exp} (\sum_k \theta_{y,k} g_k(\boldsymbol x_i))}*\text{exp} (\sum_k \theta_{y_j,k} g_k(\boldsymbol x))\right ) \end{aligned} \end{equation}$

代码为：

gradient = trainFeature'*(modProb-trainDistribution)

我们同样的我们注意到其是求解 $-f(\boldsymbol \theta)$ 的梯度。

参考文献：
1. 标记分布学习及其应用. [季荣姿]
2. Label Distribution Learning [ tkde 2016]
3. http://cse.seu.edu.cn/people/xgeng/index.htm [geng xin professor]
4. 凸优化 [stephen Boyd]
5. LDLPackage_v1.2

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

机器学习的小学生

关注关注

0
点赞

踩

7

收藏

觉得还不错? 一键收藏

1
评论

多标签分布/多标记分布

参考文献： 1. 标记分布学习及其应用. [季荣姿] 2. Label Distribution Learning [ tkde 2016] 3. http://cse.seu.edu.cn/people/xgeng/index.htm [geng xin professor]
复制链接

扫一扫

专栏目录

面向多分类自闭症辅助诊断的标记分布学习

weixin_70923796的博客

12-14 327

为此,提出一种新型的ASD辅助诊断方法,该方法通过引入标记分布学习（LDL）来解决标记噪声问题,引入代价敏感机制来解决样本不平衡问题,并采用基于支持向量回归（SVR）的标记分布学习方法,通过将样本映射到特征空间,解决高维特征带来的分类困难,最终实现多分类ASD的辅助诊断。实验结果表明,与已有方法比较,所提方法克服了多数类和少数类对结果的影响的不平衡性,可以有效地解决ASD诊断中的不平衡数据问题,拥有更好且稳定的分类性能,可以辅助ASD的诊断。标记噪声指训练样本的目标标记和对应实例的真实标记的偏差。

Caffe 实践 - 基于 ResNet101 的 Multi-label 多标签标注的训练与部署

长风破浪会有时，直挂云帆济沧海

05-08 4974

以前曾尝试过修改 Caffe ImageDataLayer 源码的方式来读取多个 labels - ImageMultilabelDataLayer [[Caffe实践 - 基于VGG16 多标签分类的训练与部署]. 修改源码的方式可能显得稍微有点繁琐, 毕竟需要重新编译. 这里尝试了一种新的方式来进行多标签自动标注.

1 条评论您还未登录，请先登录后发表或查看评论

多标记学习和标记分布学习

qwesndc的博客

09-14 1942

多标记学习（ｍｕlｔｉ－ｌａｂｅｌｌｅａｒｎｉｎｇ，ＭＬＬ）任务处理一个示例对应多个标记的情况，其目标是学习一个从示例到相关标记集合的映射。标记分布学习将不同标记的重要程度用标记分布来刻画。标记增强是指通过挖掘训练样本中蕴含的标记重要性差异信息，将逻辑标记转化为标记分布，进而通过标记分布学习有效的提升预测精度。 ...

分布式学习的概述

最新发布

weixin_42605076的博客

06-03 731

分布式学习是一种通过在多个计算节点上并行处理和训练模型的方法，能够处理大规模数据集，提高计算效率。其主要方法包括同步分布式训练和异步分布式训练。尽管分布式学习具有处理大规模数据、提高计算效率和资源优化等优势，但也面临通信开销、同步问题、数据分布不均和容错性等挑战。通过在互联网服务、科学研究、金融服务和工业制造等领域的应用，分布式学习展现了其强大的能力和广泛的应用前景。

标签分布学习

爱吃火锅的博客

02-23 3859

目录前言传统的方法论文方法总结前言一般来说我们的标签数据都是硬标签，非0即1，如one-hot或multi-one-hot，但是一些软标签有时候更具有意义，含有的信息也越丰富，即标签分布如【0.1,0.2,0.7】而不是【0,0,1】，那么该如何学习得到这样的标签分布呢？有一篇论文对此进行了讨论和研究 Label Enhancement for Label Distribution Learning 这是发表在IJCAI-18的一篇，即标签增强技术，已有中文解读 https

多标记(multi-label)学习和Mulan

The Best or Nothing!

12-21 754

概念澄清: 传统的单标签分类（中国也有翻译成单标记，不过我个人认为还是应该翻译成一个名词）学习是从一个只属于一个标签l的样本集合中学习，其中每一个标签属于一个互斥的标签集合L,|L| > 1。在多标签分类中，每个样本属于一个L样本集合的一个子集。多标记: 在过去，多标签分类由文本分类和医学分析而产生和推动的。现在，我们发现现代的许多应用...

最新标记分布学习matlab代码

11-09

标记分布学习（Label Distribution Learning, LDL）是一种处理复杂分类问题的方法，它允许每个样本拥有一个连续或离散的标记分布，而非传统的单一类别标签。这种学习方式在处理多类、模糊或者不确定性的数据时具有...

F_matlab_分布图_站点_

10-01

在MATLAB中，绘制分布图是一种常见的数据可视化方式，尤其在地理数据分析中，结合站点位置展示要素分布情况显得尤为重要。本教程将详细讲解如何利用MATLAB来根据站点位置及要素数据绘制分布图。首先，我们需要理解...

房产集团楼盘分布网页模板

01-19

综上所述，"房产集团楼盘分布网页模板"涉及到网页设计、交互体验、地图集成、SEO优化等多个方面，是构建专业房地产集团网站的重要工具。使用此模板时，开发者需要根据实际需求调整内容，同时考虑用户体验和技术实现...

多标记分类器MLKNN

04-10

在机器学习领域，多标记分类（Multi-label Classification）是一种重要的任务，它涉及到为每个实例分配一个标签集合，而不仅仅是一个单一的类别。"多标记KNN"（Multiple Label K-Nearest Neighbors）就是一种针对这...

结合谱聚类的标记分布学习.pdf

12-16

标记分布学习（Label Distribution Learning, LDL）是相对于传统的单一标记学习（如二元分类或多类分类）的一种扩展，它允许每个样本拥有一个连续的概率分布作为其标记，而不是仅有一个或几个离散的类别标签。...

一种新型多标记懒惰学习算法

03-19

在多标记学习框架下的一种多标记懒惰学习算法，算法利用了蕴含于其他概念类中的信息，充分考察了样本多个标记之间的相关性

多示例学习与多标记学习的研究

10-23

多示例学习与多标记学习的研究，在工作的应用场景中很有帮助

论文研究-基于核极限学习机的标记分布学习.pdf

09-07

标记分布学习作为一种新的学习范式，利用最大熵模型构造的专用化算法能够很好地解决某些标记多样性问题，但是计算量巨大。基于此，引入运行速度快、稳定性更高的核极限学习机模型，提出基于核极限学习机的标记分布学习算法（KELM-LDL）。首先在极限学习机算法中通过RBF核函数将特征映射到高维空间，然后对原标记空间建立KELM回归模型求得输出权值，最后通过模型计算预测未知样本的标记分布。与现有算法在各领域不同规模数据集的实验表明，实验结果均优于多个对比算法，统计假设检验进一步说明KELM-LDL算法的有效性和稳定性。

机器学习（十二）：多标签分类

芙兰泣露的博客

12-14 9579

多标签，即MultiLabel，指的是一个样本可能同时属于多个类，即有多个标签。比如一件L尺寸的棉服，则该样本就有至少两个标签——型号：L，类型：冬装。这里只贴两个链接，作为参考：解决多标签分类问题多标签（multi-label）数据的学习问题

基于多标签学习的图像语义自动标注

anlou的专栏

05-21 3377

pg18 Carneiro等人[CCM07]将图像标注问题转化为有指导多类标注(supervised multiclass labeling)问题，在其方法中，为每个类学习一个类分布模型，在其标注过程中可为待标注图像同时进行多标签分类。说明这种方法仍然采用的是二分的方式，对于每种类别分别训练一个标注模型，各种模型同时进行，也就形成了多分类。机器学习领域的多标签分类方法并不多见。通常的做

恒源云(GPUSHARE)_长尾分布的多标签文本分类平衡方法(论文学习笔记)

weixin_53977063的博客

11-22 1844

文章来源 | 恒源云社区（专注人工智能/深度学习云GPU服务器训练平台，官方体验网址：https://gpushare.com/center/）原文地址 | https://bbs.gpushare.com/topic/709/%E9%95%BF%E5%B0%BE%E5%88%86%E5%B8%83%E7%9A%84%E5%A4%9A%E6%A0%87%E7%AD%BE%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E5%B9%B3%E8%A1%A1%E6%96%B9%E6%B3

2021-09-13 标记分布学习与标记增强

ManINpower的博客

09-13 1208

标注数据方式：单标记和多标记（允许训练示例用多种方式标记） eg：自然事物中有多种标注，而不同标注的重要程度是不同的。人的面部表情有多种微表情按不同程度的表现组合而成。示例：一幅图标记：图中的山啊水啊花啊鸟啊集合中的所有标记一定可以完整的描述一个示例。对一个示例，所有标记的描述构成一种类似概率分布的数据结构，被称为标记分布。（标记分布也就是标记的分布，描述一个示例的标记的分布，图画中各种花鸟的分布）在以标记分布标注的数据集上学习的过程称为标记分布学习。（训练一个模型，这个模型的数据集是用各种标

《机器学习》（西瓜书）读书笔记（一）

nidexka的博客

10-09 396

西瓜大，西瓜圆，西瓜不甜不要钱~

“相关推荐”对你有帮助么？

非常没帮助

没帮助

一般

有帮助

非常有帮助

提交