文章目录
基本知识
什么是度量学习?
度量:定义几何中元素之间距离的函数。
度量学习称之为相似度学习。研究样本之间的相似程度。如何度量图片之间的相似度使得不同类别的相似度小而相同类别的相似度达就是度量学习的目标。
为什么要进行度量学习呢?
一些算法中需要度量来做出决策,比如:Kmeans、KNN。
懒惰学习与急切学习
懒惰学习:
此类学习技术在训练阶段仅仅是把样本保存起来,训练时间的开销为0,待收到样本后再进行处理。在新样本进入做判断的时候计算开销大,时间长;但是呢天生支持增量学习
急切学习:
在训练阶段就对样本进行学习处理方法。在训练时考虑到了训练集中所有数据,训练时间比较长,有新样本进入需要判断的时候决策时间段。
正交变换
性质
性质 | 意义 |
---|---|
保长 | 向量长度不发生变化 |
保距 | 两点之间的距离不发生变化 |
保角 | 两个向量的夹角不发生变化 |
定义
长度和距离都是由内积定义的,因此,只要保证内积不变,则能保证长度和距离不发生变化,从而角度不发生变换。于是正交变换的定义为
有这样一个A,对任意的
α
\alpha
α,
β
\beta
β有
(
A
α
,
A
β
)
=
(
α
,
β
)
(A\alpha,A\beta)=(\alpha,\beta)
(Aα,Aβ)=(α,β)。
补充说明
1.正交变换还保持了正交性不发生变换。
2.正交变换一定是单射。
3.正交变换在标准正交基/向量组下的矩阵为正交矩阵。
正交矩阵
定义
若实方阵A满足
A
T
A
=
E
/
A
−
1
=
A
T
/
A
A
T
=
E
A^TA=E/A^{-1}=A^T/AA^T=E
ATA=E/A−1=AT/AAT=E
则称A为正交矩阵。
性质
设 A A A, B B B为同阶逆矩阵,则:
1. A A A可逆,且 A − 1 = A T A^{-1}=A^T A−1=AT; |
2. A T & A − 1 A^T \& A^{-1} AT&A−1为正交矩阵; |
3. A B AB AB为正交矩阵; |
4. ∥ A ∥ = ± 1 \|A\| = \pm 1 ∥A∥=±1。 |
标准正交向量组
由两两正交的非零向量组组成的向量组称为正交向量组,由单位向量组成的正交向量组称为标准正交向量组。
定理
实方阵 A A A为正交矩阵的充要条件是 A A A的列向量组为标准正交向量组。
k近邻学习
是一种监督学习方法。
懒惰学习的著名代表。
思想
影响因素
1.k的取值;
2.不同距离的计算方式i。
性能分析
主成分分析——线性降维方法
为什么要降维?
维数灾难:
1.数据样本稀疏;
2.距离计算困难。
我们在分析KNN的性能时,做出了领域内必有点的假设,这在现实任务中是很难满足的。因为大部分数据维度较高,分布稀疏。同时高维还会带来内积、距离计算困难。
而解决维数灾难的一个方案是——降维(“维数约减”)。这有助于提高样本密度,简化距离计算。
为什么能降维?
与学习任务密切相关的也许仅仅只是某个低维的分布,即高维空间中的一个低维嵌入。
线性降维
基于线性变换来进行降维的方法称为线性降维方法,对低维度子空间的性质的不同要求可以通过对W施加不同的约束来实现。
分类有:线性有监督(LDA),线性无监督(PCA)
数学表示
欲得到低维子空间,最简单的是对原始高维空间进行线性变换。
我们给定d维空间中的样本
X
=
{
x
1
,
x
2
,
.
.
.
,
x
m
}
∈
R
d
∗
m
X=\{x_1,x_2,...,x_m\}\in R^{d*m}
X={x1,x2,...,xm}∈Rd∗m,
通过映射函数
Z
=
W
T
X
Z=W^TX
Z=WTX
将样本降至低维度。其中
W
∈
R
d
∗
d
′
W \in R^{d*d'}
W∈Rd∗d′,
Z
∈
R
d
′
∗
m
Z \in R^{d'*m}
Z∈Rd′∗m。
值得注意的是,样本矩阵中的样本以列的形式组织。
变换矩阵可视为d‘个d维属性向量。
换言之,
z
i
z_i
zi是原属性向量
x
i
x_i
xi在新坐标系
{
ω
1
,
ω
2
,
.
.
.
,
ω
d
′
}
\{\omega_1,\omega_2,...,\omega_{d'}\}
{ω1,ω2,...,ωd′}中的坐标向量。
若
ω
i
\omega_i
ωi与
ω
j
\omega_j
ωj正交,则新坐标系为一个正交坐标系,此时W为正交变换。
显然,新空间中的属性是原空间中的属性的线性组合。
特点
优点
1.对线性结构分布的数据集有不错的降维效果;
2.在压缩、降噪以及数据可视化非常有效;
3.计算简单,易于理解。
缺点
对呈现出结构非线性或者属性强相关的数据集,无法发现复杂的非线性数据的内在本质结构。
投射子空间的性质
对于正交属性空间中的样本点,如何用一个超平面对所有样本进行适当表达?
若存在这样的超平面,他应该具有以下性质:
最近重构性:样本点到这个超平面的距离都足够近。
最大可分性:样本点在这个超平面上的投影尽可能分开。
这两个性质是等价的。
PCA基础
PCA是一种常用的无监督的学习方法,这一方法利用正交变换把由线性相关变量表示的观测数据转化为少数几个由线性无关变量表示的数据。线性无关的变量称为主成分。主成分的个数通常小于原始变量,因此主成分分析法也属于降维方法。我们以不降维的PCA引入。
基本想法
数据变量之间可能存在相关性,增加了分析难度。于是,我们考虑由少数不相关的变量来代替相关变量,并且要求能够保留数据中的大部分信息。
算法流程
第一,我们先将给定的数据进行规范化,使得数据每一变量的平均值为0,方差为1。
第二,我们对数据进行正交变换,原来线性相关变量表示的数据,通过正交变换变成若干个线性无关的新变量表示的数据。
新变量是可能的正交变换中变量的方差的和最大的,方差表示了在新变量上的信息大小。
直观解释
数据集合中的样本由实数空间(正交坐标系)中的点表示,空间的一个坐标轴代表着一个变量(属性),也可以理解为属性空间。规范化处理后的数据分布在原点附近。
对原坐标系中的数据进行主成分分析等价于坐标系旋转变换,将数据投影到新坐标系的坐标轴上。
新坐标系的第一坐标轴、第二坐标轴对应着第一主成分以及第二主成分等。
数据在每一坐标轴上的坐标值的平方表示相应变量的方差,且这个坐标系是在所有可能的新的坐标系中,坐标轴上的方差的和最大的。
方差大的原因是为了一眼就看出样本的成分,特征。
Example
数据在原坐标系中,由变量
x
1
x_1
x1,
x
2
x_2
x2表示。
通过正交变换后,在新坐标系中,变量由
y
1
y_1
y1,
y
2
y_2
y2表示。
在
y
1
y_1
y1对应的坐标轴方向上,方差最大,表示第一主成分。
在新坐标系中,数据中的
y
1
y_1
y1和
y
2
y_2
y2是线性无关的。
数学分析
以下内容皆为数学结论没有数学分析,仅供辅助理解。
如下的
x
x
x代表着一个点,但是是随机变量意义上的一个点。
y
i
y_i
yi代表着一个值,随机变量意义上的一个值,表示的是一个方向,一条坐标轴。
a
i
a_i
ai表示的是与
x
x
x线性组合的系数列向量,是
x
x
x的协方差矩阵的一个单位特征向量。
值得注意的是如何求解一个坐标轴上的方差。
每一个
a
i
a_i
ai都是空间的一个基向量。
降维分析
主成分分析的主要目的是降维,一般选择k个主成分代替m个原有变量,使问题得以简化的同时,保留变量的大部分信息(方差)。
主成分分析与降维的关系
我认为
A
A
A的作用在空间中构建了新的基向量,我们取前
q
q
q个列也对应了
q
q
q个相互正交的基向量,这又是一个低维度的属性空间。
《机器学习》中提出的最近重构性分析
目标:求解变换矩阵。
由于
ω
i
\omega_i
ωi与
ω
j
\omega_j
ωj之间正交,因此,该矩阵实际上是对角线为特征值,其余全为零的方阵。
《机器学习》中提出的最大可分性分析
求解
算法伪代码
我们经过以上分析,所要求的变换矩阵,不过是斜方差矩阵对应的特征向量组。