论文阅读111

zhy1001ing

已于 2023-05-15 13:37:03 修改

阅读量251

点赞数

文章标签：论文阅读机器学习聚类

于 2023-03-28 15:07:36 首次发布

本文链接：https://blog.csdn.net/zhy1001ing/article/details/129779855

版权

研究内容

针对不平衡数据的分类 ---->对少数类进行过采样---->如何有效选取关键的少数类样本---->边界样本采样
现在研究的重点就是如何选取更加有效的方式对少数类边界样本进行采样。

文章目录

研究内容
一、K-means聚类与 SVDD结合的新的分类算法
二、Minority oversampling for imbalanced time series classification

一、K-means聚类与 SVDD结合的新的分类算法

1、主要内容

先用 K-means聚类将整个数据集划分为K个簇，再用SVDD算法并行训练K个簇，最后再对获得的K个局部支持向量集训练‚即得到最终的全局决策边界。由于采用了分而治之并行计算的方法,提高了算法的效率。

2、算法步骤

在这里插入图片描述

3、方法图示

在这里插入图片描述

4、借鉴想法

  聚类进行采样

二、Minority oversampling for imbalanced time series classification

1.主要内容

数据类别：不平衡的时间序列数据
特点：数据的高维度和高变量间相关性
论文提出了解决高维不平衡时间序列分类（OHIT）的过采样方法，具有保持数据结构的功能。此外，为了进一步提高对不平衡时间序列数据进行分类的性能，我们将OHIT集成到boosting框架中，得到了一种新的集成算法OHITBoost。
OHIT 利用基于密度比的共享最近邻聚类算法来捕获高维空间中少数类的模式。它对每个模态应用大维协方差矩阵的收缩技术，得到准确可靠的协方差结构。最终基于具有估计协方差矩阵的多元高斯分布生成保留结构的合成样本。
简单描述OHIT 合成样本：对于 DRSNN 发现的簇 $i$ ，我们首先计算其簇均值 $u_i$ 和收缩协方差矩阵 ( ${S_i}^*$ )，然后根据高斯分布 $u_i,{S_i}^*)$ 生成合成样本。这样，合成样本可以保持每个模式的协方差结构。
文章贡献：
(1) 文中设计了一种鲁棒的 DRSNN 聚类算法来捕获高维空间中少数类的潜在模式。
(2) 文中利用基于夏普单指标模型的收缩技术改进了小样本和高维背景下协方差矩阵的估计。
(3) 文中提出了一种新的集成算法 OHITBoost 来激发 OHIT 和 boosting 之间的正协同作用。

2.OHIT方法

OHIT涉及三个关键问题:

聚类高维数据（重点）
基于有限数据估计大维协方差矩阵
生成保持结构的合成样本。

(1）聚类高维数据:

为高维数据开发了基于共享最近邻相似性(SNN)的密度聚类方法。在密度聚类中，核心点的概念有助于解决不同大小和形状的聚类问题。在SNN相似性中，一对样本之间的相似性通过其最近邻居列表中的公共邻居的数量来测量。由于距离排名在高维空间中仍然有意义，SNN被视为处理高维数据的良好二级相似性度量。

SNN:用于形成聚类，根据不同的邻域参数形成不同的簇，k小，多簇; k大，少簇，多个簇易合并成簇。所以SNN的缺点就是难以设置合适的参数值。

SNN步骤：（MinPts和Esp是SNN聚类中的两个重要参数。据所知，没有设置适当值的一般原则）

基于SNN相似性定义样本密度
（样本相似性： $SNN（x_i，x_j）=|N_{k(x_i)}\cap{N_{k(x_i)}}|$ , $N_{k(x_i)},N_{k(x_i)}$ 为 $x_i，x_j$ 样本的k近邻)
（样本密度：在传统的密度聚类中，样本的密度定义为与该样本的距离不大于距离阈值Esp的样本数。）
根据样本密度找到核心点，然后为其定义直接密度可达样本集
（核心点是密度高于密度阈值MinPts的样本，核心点的直接密度可达样本集被定义为与该核心点的相似性超过Esp的共享最近邻居）
围绕核心点构建集群

SNN图示：根据k值的不同，形成的聚类效果也不同，如下图，主要缺点是很难为参数设置合适的值，导致聚类性能不稳定。

在这里插入图片描述
基于SNN的缺点:
本文提出了新的聚类方法:DRSNN。
为了避免使用Esp，DRSNN将样本密度定义为该样本与其每个共享最近邻居之间的相似度之和。

DRSNN:
(1）根据某种主要相似性或距离度量，找到少数样本的k近邻。
(2)计算SNN相似度。对于所有少数样本对，计算其SNN相似度。
(3）计算每个样品的密度。
(4）计算每个样品的密度比。
(5）确定核心点，即密度比大于drT的所有样本。
(6)找到每个核心点的直接密度可达样本集。
(7)构建集群。彼此直接密度可达的核心点被放置在相同的簇中;不能直接从任何核心点获得密度的样本被视为异常值;最后，将所有其他点分配给其直接密度可达核心点所在的簇。

(2）基于有限数据估计大维协方差矩阵

在高维和小样本量的情况下，样本协方差矩阵不再是真实协方差矩阵的准确可靠估计。收缩技术作为改进协方差矩阵估计的最常见方法之一，旨在线性组合非限制样本协方差矩阵S和约束目标矩阵F，以产生具有较小估计误差的收缩估计器。即

在这里插入图片描述
收缩技术可以通过在S和F之间进行适当的权衡来获得更精确的协方差矩阵估计。一个关键问题是如何找到最佳收缩强度，一旦获得α，就可以确定收缩率估计器S*。一种流行的解决方案是通过最小化均方误差（MSE）来分析选择α的值。
经过一系列的推导：
在这里插入图片描述
由于样本的数量有限： $\hat{\alpha}^*$ 的值可能大于（或小于）1（或0）

（3）基于有限数据估计大维协方差矩阵，生成保持结构的合成样本，效果如下（及各算法对比）：

在这里插入图片描述

3、OHIT算法

在这里插入图片描述
步骤：

使用DRSNN进行聚类
对每个簇计算收缩协方差矩阵
对每个簇合成样本

4、OHIT集成

最后将将OHIT集成到boosting框架中，得到了一种新的集成算法OHITBoost。
在这里插入图片描述
步骤：

对少数类进行聚类
用不同的聚类簇迭代构建子分类器
最后集成分类器

首先根据权重分布采集少数类样本得到 $S_{min}^t$ （第4行）；
其次计算每簇的均值和收缩协方差矩阵（6-7行）；
然后基于高斯分布 $(\mu^l_t，S^l_t)$ 合成样本（8-9行）。
然后根据权重分布抽取多数类样本 $S_{maj}^t$ （第11行）。
基于 $S_{min}^t$ 和 $S_{maj}^t$ 训练子分类器，计算损失，然后更新样本的权重分布。
（生成的合成样本的数量与所考虑的模式的样本大小成比例。原因是，如果某个模式的样本更多，则表示该模式的样本可能具有更高的权重。因此，应该为这种模式生成更多的合成样本，以使后续分类器更好地学习它）