Synthetic Sample Generation for Label Distribution Learning (SSG)

最新推荐文章于 2024-07-10 19:57:10 发布

yodala

最新推荐文章于 2024-07-10 19:57:10 发布

阅读量111

点赞数

分类专栏：论文标签分布文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yodala/article/details/130744799

版权

论文同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

Synthetic Sample Generation for Label Distribution Learning (SSG)

研究背景

已有的 LDL 算法都将重心放在模型设计上，忽略了对数据的预处理。

通过研究现有的数据集，与其输入特征和输出标签的高维度相比，它们包含的样本数量非常少。一旦应用于学习算法，具有稀疏数据的数据集将导致性能不佳。

本文从数据预处理阶段开始，提出了一种过采样方法，通过从现有实例创建新实例来生成原始数据集的超集。

主要难点

不同于smote算法，选择少数类样本作为种子样本，SSG 通过选择空间是最远节点作为种子样本，如何筛选这些样本是第一个挑战。
人造样本不仅要处理特征维度，还要处理标签维度。

算法步骤

下图描述了 SSG 的算法流程。
在这里插入图片描述

在这里插入图片描述

距离

$\overline{D I S T}\left[x_i\right]=f_x \frac{\sum_{l=1}^m \text { euclidean }\left(x_i, x_l\right)}{m}+f_y \frac{\sum_{l=1}^m \text { euclidean }\left(D_i, D_l\right)}{m} \text {. }$
将两个维度的欧式距离的加权和作为目标样本与其他样本的最终距离；
取目标样本与所有样本的距离的均值作为筛选种子样本的度量。

种子样本选择算法

在这里插入图片描述
每个样本被选中的概率为： $P_{x_i}=\frac{\overline{\operatorname{DIST}}\left[x_i\right]}{\sum_{j=1}^m \overline{D I S T}\left[x_j\right]}$

样本合成算法

在这里插入图片描述

在特征维度上，只利用种子样本和它随机的一个 $k$ 近邻样本来合成特征向量，上图gap=0.6。
标签维度上同时考虑种子样本和所有 $k$ 近邻样本，计算其均值作为最终的标签向量。

实验

在这里插入图片描述

启发

种子样本并不一定要从标签入手，LDL 由于其标签特性，通过标签来定义少数类是比较困难的。本文通过空间信息来选择种子样本是一个较好的着陆点。通过聚类来选择种子节点可能也是不错的出发点。样本数量少的簇可能会被学习器所忽略。
特征向量和标记向量使用不同的方法来生成，标记向量的生成应该用到更多的信息。在生成特征向量之后结合原始样本利用矩阵分解得到标签向量也许能够取得更好的结果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Synthetic Sample Generation for Label Distribution Learning (SSG)

SSG
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。