GBASE南大通用技术分享:关于GBase UP数据库特征处理算法介绍——主成分分析

GBase UP是GBASE南大通用自主研发的融合了GBase 8a MPP、GBase 8s、开源Hadoop生态系统的大数据平台产品,兼顾大规模分布式并行数据库集群系统、稳定高效的事务数据库,以及Hadoop生态系统的多种大规模结构化与非结构化数据处理技术,能够适应OLAP、OLTP和NOSQL三种计算模型的业务场景,是构建企业数据平台的重要基础设施。

GBase UP特征处理算法介绍:

其一:

主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组 可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

当样本数据成千上万时,维数上千时,它能起到的作用有两个:一个是节约存储空间,当数 据量过多时,通过减少几个维度就可以节约很多空间;另一个是提供计算的速度,将数据降维后, 无论是样本数据训练时,还有对新数据做出响应时,速度都会大幅提高。

近年来,PCA 方法被广泛地运用于计算机领域,如数据降维、图像有损压缩、特征追踪等等。 所以在机器学习和模式识别及计算机视觉领域,PCA 方法被广泛的运用。在人脸识别中,假设训 练集是 30 幅不同的 N×N 大小的人脸图像。把图像中每一个像素看成是一维信息,那么一副图像 就是 N2维的向量。因为人脸的结构有极大的相似性,如果是同一个人脸的话相似性更大。而我们 的所希望能够通过人脸来表达人脸,而非用像素来表达人脸。那么我们就可以用 PCA 方法对 30 幅训练集图像进行处理,寻找这些图像中的相似维度。我们提取出最重要的主成份后,让被识别 图像与原图进行过变化后的主元维度进行相似度比较,以衡量两幅图片的相似性。在图像压缩方 面,通过 PCA 方法进行图像压缩,又称 Hotelling 或者 Karhunen and Leove 变换。通过 PCA 提取 出图像的主分量,去除掉一些次分量,然后变换回原图像空间,图像因为维数的降低得到了很大 程度上的压缩,同时图像还很大程度上保留了原图像的重要信息。PCA 方法其实就是将数据空间 通过正交变换映射到低维子空间的过程。而相应的基向量组应满足正交性且由基向量组构成的地 位子空间最优地考虑了数据的相关性。在原数据集变换空间后应使单一数据样本的相互相关性降 低到最低点。

要使 PCA 发挥最大的作用,训练用的原始数据就必须足够多,而数据的收集是制约主成分分 析发展的障碍之一。比如,人脸识别系统中,人的面部表情不同时、有障碍物遮挡面部时、光线 过强或过弱时都会影响照片的质量,难以提取有效的原始特征数据,也就难以得到好的低维空间。

除去收集数据需要花费大量精力和资源以外,在主成分分析时,同样需要注意数据的归一化 问题。由于变量和变量之间的单位或者量纲不同,比如,人的牙齿长度按毫米计算,眼睛长度却 按厘米计算,不同的量纲将导致计算特征值时变量所占比重不同。在进行主成分分析时,需要将所有的变量统一量纲,计算完毕后在还原至原始的量纲,否则计算结果将受到影响。

GBASE南大通用数据库GBase UP主成分分析算法:

主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关 性的指标 X1,X2,…,XP(比如共 p 个指标),重新组合成一组较少个数的互不相关的综合指标 Fm 来代替原来指标。提取的综合指标应使其既能最大程度的反映原变量 Xp 所代表的信息,又能 保证新指标之间保持相互无关。

设 F1表示原变量的第一个线性组合所形成的主成分指标,即 F1=a11X1+a21X2+…+ap1Xp,由数 学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差 Var(F1)越大,表示 F1包含 的信息越多。常常希望第一主成分 F1 所含的信息量最大,因此在所有的线性组合中选取的 F1应 该是 X1,X2,…,XP的所有线性组合中方差最大的,故称 F1 为第一主成分。如果第一主成分不 足以代表原来 p 个指标的信息,再考虑选取第二个主成分指标 F2,为有效地反映原信息,F1已有 的信息就不需要再出现在 F2 中,即 F2与 F1要保持独立、不相关,用数学语言表达就是其协方差 Cov(F1, F2)=0,故称 F2 为第二主成分,依此类推构造出的 F1、F2、……、Fm为原变量指标 X1、 X2……XP的第一、第二、……第 m 个主成分。

根据以上分析得知:

(1)Fi 与 Fj 互不相关,即 Cov(Fi,Fj) = 0,并有 Var(Fi)=ai’Σai,其中Σ为 X 的协方差阵。

(2)F1 是 X1,X2,…,Xp的一切线性组合中方差最大的;即:Fm是与 F1,F2,……,Fm-1 都 不相关的 X1,X2,…,XP 的所有线性组合中方差最大者。F1,F2,…,Fm(m≤p)为构造的新 变量指标,即原变量指标的第一、第二、……第 m 个主成分。

由上分析可见,主成分分析法的主要任务有两点:一、确定各主成分 Fi(i=1,2,…,m) 关于原变量 Xj(j=1,2 ,…, p)的表达式。二、计算主成分载荷,主成分载荷是反映主成分 Fi 与原变量 Xj 之间的相互关联程度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值