Random-projection ensemble classification 论文阅读与思考

The Email address begins with shianlin2084.

1. 论文泛读

1.1. 标题

随机投影集成分类

1.2. 摘要

1.2.1. 方案

这是一个通用方案:对高维数据分类,使用随机投影,将特征向量降维至低维空间,然后使用任意基分类器,选出合适的进行结合。将随机矩阵划分成不相关的组。在每个组里选出服从最小测试误差(?)的估计。然后集成这些结果,使用数据驱动型投票阈值决定最终结果。我们的理论结果阐明了增加投影数量对性能的影响。

1.2.2. 效果

1.我们的理论结果阐明了增加投影数量对性能的影响
2.此外,在充分降维假设所隐含的边界条件下,我们证明了随机投影集成分类器的测试超额风险可以由不依赖于原始数据维数的项来控制
3.随着预测数量的增加,一个项变得可以忽略不计
4.通过大量的模拟研究,将该分类器与其他几种常用的高维分类器进行了实证比较,显示出其优异的有限样本性能

1.3. 介绍

1.3.1. 前人方法

  • 符号:p:矩阵维度;n(训练)样本数目
  • LDA等一系列不适应高维
  • 使用特征提取;也有使用软阈值获取稀疏边界
  • 使用正则项

1.3.2. RPEnsemble

  • 随机投影:the celebrated Johnson–Lindenstrauss Lemma
    在这里插入图片描述
    注意,在这个保证了对偶距离的函数f,可以使用哈尔测度上的随机投影分布,在随机多项式时间里找到【第三章证明,但是实际操作可以见公布的代码】。有趣的是,在该引理中的投影下界d,并不依赖于初始维度p。这个下界,常数因子是最优的 ===> 随机矩阵投影可以大量节约时间。当维度p大于log n的时候,使用随机矩阵投影可以有与原来矩阵具有相同甚至更好的统计意义上的表现。【这句后面有讲,只用一个随机投影矩阵的例子】
  • 集成:
    在这里插入图片描述
  • 大概意思是说,第一个2011代指的那篇论文,用那个公式估计一个p*p大小的总体逆协方差。后面两个引用都用这篇论文的idea进行实验。这个地方,请注意,并不是限定为仅可以在分类上使用的
  • bagging:
    在这里插入图片描述
  • 筛选数据的理论支持
    在这里插入图片描述
    这段就说怎么筛选,怎么确定阈值的
  • 论文结构:
    略。跳过理论部分

1.4. 小标题

在这里插入图片描述
通读可以发现,理论部分优先跳过,其他泛读,结合公布的代码与实验进行理解与模仿。第八节后都是附录,选择参数的要看

1.5. 结论和讨论

  1. 这玩意儿是个框架,啥分类器都可以往里面套
  2. 可以给投票加权重
  3. 面对多分类问题的拓展:
    在这里插入图片描述
  4. 面对其他随机投影的选择
  • 维度过高,例如是上千级别的,生成随机投影就很花时间,这个时候,就有
    在这里插入图片描述
    也就是使用一种矩阵A。A的每一行都只有一个非零元素(是1)。请注意A是d*p大小的。当然,这种方法丢失了RPEnsemble里面最有吸引力的地方(这个地方就是它与正交变换是等价的)。要证明相应的理论是可以的,但这种情况下,要获得良好的分类,就不可避免地需要更大的结构。RNM
  1. 虽然这玩意解释性不好,但选出来的随机投影暗含的权重表明了不同变量的相对重要性。也可以从这一方向来理解:RPEnsemble分类器生成了变量排序
  2. 类似于分抽样和自举抽样,我们可以认为对原始数据的每一个随机投影,以及在许多不同扰动下观察到的效果,往往是统计学家所寻求的“稳定”效果
  3. 为啥RPEnsemble对分类问题有吸引力?
    a. 因为它们能够从数据中识别出“好的”随机预测
    b. 我们可以从选定的预测中汇总结果
    预计这两个以上特性将在确定相关方法的未来应用领域中发挥重要作用

1.6. 图表

  • 分类器使用LDA,QDA,KNN
  • fig 1是用200例50维的数据,分别随便投影和精挑细选(上下)成为2维,LDA,QDA,KNN(左右)来证明下面的比上面的好
  • fig2 的黑线是平均误差,上下两个标准差(红线),在超过20组 B 1 B_1 B1, B 2 B_2 B2上得到的。使用模型是model 2,其他参数是n = 50,p = 100,d = 5, B 2 B_2 B2都是50。三张图是三个分类器
  • fig3 中,变动的是样本数量KaTeX parse error: Undefined control sequence: \n at position 1: \̲n̲ π i \pi_i πi。固定的分类器是QDA,样本维度 p p p = 100 =100 =100 d = 2 d = 2 d=2红线是估计,黑线是真实值。使用模型3
  • fig4,5 是直方图,第10节的,先跳过;发现都是附录的内容,跳
  • 实验的话是4个数值实验, n = 50 , 200 , 1000 n = 50,200,1000 n=50,200,1000 p = 100 , 1000 p = 100,1000 p=100,1000。有两种不同的先验概率。使用高斯投影,令 B 1 = 500 B_1 = 500 B1=500, B 2 = 50 B_2 = 50 B2=50。表格1和2是风险估计和标准差, p = 100 p = 100 p=100, π 1 = 0.5 \pi_1 = 0.5 π1=0.5 n t e s t = 1000 n_{test} = 1000 ntest=1000是测试集大小, l = 1 , . . , N r e p s l = 1,.., N_{reps} l=1,..,Nreps N r e p s = 100 N_{reps} = 100 Nreps=100。也就是把这些实验重复100次。计算出每次在测试集上的情况来取平均值,有
    在这里插入图片描述
    加粗是最好的;我们还强调的是风险评估在一个最小标准误差内的方法
    这个图片,介绍了风险估计的期望和方差情况,也推出了标准差估计的式子
  • 模型1【稀疏类边界】
    在这里插入图片描述
  • 模型2【旋转的稀疏正交】
    在这里插入图片描述
    在这里插入图片描述
  • 模型3【特征独立】
    在这里插入图片描述
  • 模型4【t分布特征】
    在这里插入图片描述
  • 表格1 里,这误差还不小啊尤其模型1
  • 表格2 里,n小的时候明显都很大
  • 真实数据模型的样本量和数据维度也不大

2. 论文精读

2.1. 算法框架与符号标记【对应第二节】

在这里插入图片描述

  • ( X , Y ) (X,Y) (X,Y)是来自联合分布 P P P。这个分布具有以下特征:
  1. π 1 : = P ( Y = 1 ) \pi_1:=P(Y=1) π1:=P(Y=1)
  2. P r P_r Pr描述条件概率 X ∣ Y = r X|Y = r XY=r r = 0 , 1 r = 0,1 r=0,1
    因此,我们可以推出
  3. π 0 : = P ( Y = 0 ) = 1 − π 1 \pi_0:=P(Y=0)=1-\pi_1 π0:=P(Y=0)=1π1
  4. 边际分布为 P X P_X PX
  5. η ( x ) : = P ( Y = 1 ∣ X = x ) \eta(x):=P(Y=1|X=x) η(x):=P(Y=1X=x)
  6. 所有的分类器【二分类】的集合
    在这里插入图片描述
  7. 分类器在测试集上的误差
    在这里插入图片描述
    在这里插入图片描述

最小的是贝叶斯估计,也就是在X确定的情况下,Y=1的概率不小于1/2,就归类为1.否则就是0。这个最多就1/2。这么定义R©是因当C随机时,它应该在计算时调节条件。但贝叶斯分类器啥用都没有,因为 η ( x ) \eta(x) η(x)不知道啊。但只用 η ( x ) \eta(x) η(x)的近似值的话,可以通过训练集数据来获取
在这里插入图片描述
这里把分类器的记号重写了下,因为处理的不再是p维的数据,而是n个d维度数据(不含标签)

  1. 假设 d ≤ p d \le p dp
  2. **投影的定义!**与符号的变更!
    在这里插入图片描述
    【水字数啊(小声)】就说现在! C n A ( x ) C_n^A(x) CnA(x)虽然是 R p R^p Rp上的分类器,但是人家实际处理的是 R d R^d Rd上哒!
  3. 集成要用到的是 B 1 B_1 B1个投影阵A。在这里投影阵A的分布考虑了训练集数据,然而实际没必要
    在这里插入图片描述

(1)式是分类器对分类出来结果是1,也分对的情况的频率
(2)式是定义了一个集成分类器,只要(1)式不小于 α \alpha α,,就可以分类为1

总结起来,就是这玩意儿把选出来的是1的标签统计了下,不小于某个频率就可以把这个定成标签1。
在这里插入图片描述
这个频率(阈值)不一定是1/2,是数据驱动的软阈值。

  1. 这里定义了下期望
    在这里插入图片描述
    还有这期望可以干嘛用:定义了一个阶梯的概率函数
  2. 这概率函数还有啥性质?
  • 假设在 α \alpha α处二次可导
    在这里插入图片描述

在这里插入图片描述
牛掰。这里在写出某个确定的rpEnsemble分类器后写出了这个分类器的测试误差(3)式。理论一推了下这个分类器的测试误差和全部RPEnsemble分类器的期望的差值,又推出来这个期望与贝叶斯的误差
在这里插入图片描述
B 1 B_1 B1等于无穷时,就把理论2中的替换成带星号的。
在这里插入图片描述
这里找出最优的 α \alpha α,也是通过一个一个去试才知道的。在知道了最优的 α \alpha α以后,

在这里插入图片描述
可以对其进行提升
在这里插入图片描述

2.2. 随机投影阵的选择【对应第三节】

2.2.1. 记号

  1. R n A R^A_n RnA是对分类器错误的估计的记号
  2. 一共有 B 1 B_1 B1批,每批次有 B 2 B_2 B2
    在这里插入图片描述

2.2.2. 如何生成需要的随机矩阵

  1. 生成随机矩阵Q(d*p)。每个元素都是从标准正态分布获取
  2. Q T Q^T QT进行SVD分解, A T A^T AT就是左奇异向量矩阵

2.2.3. 每批矩阵选取

在这里插入图片描述
就是选出来每批里在测试集(?)上表现最好的 B 2 B_2 B2。重复 B 1 B_1 B1
在这里插入图片描述
测试集上的误差,可以有最小值。因为最小最小是0

  1. 假设2可以把任何一个随机矩阵分类错误的估计控制在最小误差为中心,距离为某个值的区间上,且落在这个区间上的概率不小于 β \beta β
    在这里插入图片描述
    这个值也很奇妙,是同一批里选出来最佳的那个,本身的误差值和估计的误差值的差的期望,由 B 2 B_2 B2决定。啊,不过通过 B 2 B_2 B2的增加(花了更多的时间)来选出最好的投影可能是徒劳的,因为你可能会发现一个误差估计较低的投影,但所选择的投影并不一定会产生一个测试误差较低的分类器。
  2. 在这种情况下,以下结果根据基于d维数据的分类器的测试超出风险来控制我们随机投影集成分类器的测试超出风险。某个项反映了我们根据预测数据估计分类器测试误差的能力,和一个依赖于预测的数量的项
  3. 在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

2.3. 数据集划分【对应第四节】

请注意,LDA,QDA,KNN的说明已跳过。是在理论三中,推导前两个项的期望值上的边界。

在这里插入图片描述
也就是使用训练集投影数据产生分类器,用测试集上的错误分类的数据的比例算作测试集的误差
在这里插入图片描述
推出来
在这里插入图片描述
在这里插入图片描述

2.4. 参数选择【对应第五节】

2.4.1 阈值 α \alpha α

在这里插入图片描述
因为(17)式没有确定的最小值(这些都是从实验中得到的),所以把 α \alpha α的估计值取成最小和最大的最小值的均值。不用花多少时间,因为已经算过了

2.4.2. B 1 B_1 B1 B 2 B_2 B2的选择

推荐 B 1 = 500 B_1 = 500 B1=500 B 2 = 50 B_2=50 B2=50

2.4.3. d的选择

在这里插入图片描述

2.5. 实验【对应第六节】

在这里插入图片描述
其他模型的参数设置

2.5.1. 模拟数值实验

简单来说,就是使用

  1. n = 50 , 200 , 1000 n = 50,200,1000 n=50,200,1000个数据
  2. 每个数据可有 p = 100 , 1000 p = 100,1000 p=100,1000
  3. 两种不同的先验概率
  4. 使用高斯投影,一共500批,每批50个
    表格1&2的投影就是使用维度为100的, Y = 1 Y=1 Y=1占了一半的。其中:
  • 测试集大小为1000
  • 实验重复100次
2.5.1.1. 稀疏类边界【模型1】

d = 2.作者说该实验聊胜于无……

2.5.1.2. 旋转稀疏正交【模型2】

d =3.和模型1类似,不过进行了旋转。也不是单纯的对角矩阵,非对角线元素也不一定是0.RPEnsemble在这里,不论d是过小还是过大,表现都不错

2.5.1.3. 独立特征【模型3】

这个模型的类边界是非线性的。假设3不一定适合所有d<p的模型。作者还说:
and in fact the RP-QDA5 classifier has the smallest misclassification rate among all methods implemented
因为非线性边界的自然不适合用LDA搞

2.5.1.4. t分布特征【模型4】

模型4探讨了重尾的影响以及特征之间存在的相关性。套上LDA和QDA效果也不好,可能是因为:
类条件分布的二阶矩和一阶矩分别是有限的,因此,类均值和协方差矩阵估计很差

2.5.2. 真实数据集

这些数据集来自UCI
使用n个作为训练集,min(剩下的,1000)作为测试集。一共500批,每批50个。使用高斯投影。实验重复100次。实验是经过调参的【2333】

  • Eye state detection【p=14】
  • Ionosphere dataset【p=32】
  • Down’s syndrome diagnoses in mice【p=77】
  • Hill-Valley identification【p=100】
  • Musk identification【p=166】
  • Cardiac Arrhythmia diagnoses【p= 194】
  • Human Activity Recognition【p=561】
  • Handwritten digits/Gisette dataset【p=5000】
    第6.3节总结了下,有多少个数据集里,本算法是最好的;或者排名前三的;还吹了吹普适性;
    当然,假设三不是必须品,已经强调好几次了。
    在Gisette dataset上这个框架不够有效。因为太稀疏了。用随机投影可能会破坏稀疏结构【小声,李平的CRP应该可以解决这个问题】这个时候可以使用投影的替代分布,例如轴向对齐的投影

3. 以上都是二分类数据集

4.有一点没想明白,如何知道是测试集上最好的?

通过在训练集/验证集上的表现选出,并祈祷它们是最好

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值