第一节博客已经整理了求导的公式,一些常用的概念。链接如下:高等数学基础(1)-CSDN博客。
第二节博客整理了微积分的公式及其相关概念。链接如下:高等数学基础(2)——微积分-CSDN博客
第三节博客则整理了泰勒公式和拉格朗日公式的相关概念。链接如下:高等数学基础(3)——泰勒公式与拉格朗日-CSDN博客
第四节博客则整理了行列式和矩阵的相关概念。链接如下:线性代数基础(1)——行列式与矩阵-CSDN博客
这里我打算补充一下机器学习涉及到的一些关于特征值和特征向量的知识点。
(注意:目前自己补充到的所有知识点,均按照自己网课视频中老师课程知识点走的,同时一些公式是网友辛辛苦苦敲的,这里用到那个博客均在文末补充地址,不过这里首先表示感谢!!)
这里学习特征值和特征向量之前先说一下机器学习中特征提取的特征向量与矩阵的特征向量的区别
我的理解是机器学习的特征向量是指你所提取的特征组成的向量(也称为 feature vector),这个特征可以是任意的,比如人的身高体重,头发的长短等,单位也是由自己决定,完全看你的需求。而矩阵的特征向量(称为 eigen vector)是线性代数里的概念,是对矩阵求解特征方程得到的向量。不过这里我主要学习线性代数中矩阵的特征值和特征向量。
1,预备知识
1.1 标量
一个标量就是一个单独的数,一般用小写的变量名称表示。
1.2 向量
一个向量就是一列数,这些数是有序排列的。用过次序中的索引,我们可以确定每个单独的数。通常会赋予向量粗体的小写名称。当我们需要明确表示向量中的元素时,我们会将元素排列成一个方括号包围的纵柱:
我们可以把向量看做空间中的点,每个元素是不同的坐标轴上的坐标。
1.3 矩阵
矩阵是二维数组,其中的每一个元素被两个索引而非一个所确定。我们通常会赋予矩阵粗体的大写变量名称,比如A。如果一个实数矩阵高度为 m,宽度为 n,那么我们说 A属于。
矩阵在机器学习中非常重要,实际上,如果我们现在有N个用户的数据,每条数据含有M个特征,那其实它对应的就是一个N*M的矩阵;再比如,一张图由 16*16的像素点组成,那就是一个16*16的矩阵。
1.4 张量
几何代数中定义的张量是基于向量和矩阵的推广,通俗一点理解的话,我们可以将标量视为零阶张量,矢量视为一阶张量,那么矩阵就是二阶张量。
例如,可以将任意一张彩色图片表示成一个三阶张量,三个维度分别是图片的高度,宽度和色彩数据。将这张图用张量表示出来,就是最下面的这张表格:
其中表的横轴表示图片的宽度值,这里只截取0~319;表的纵轴表示图片的高度值,这里只截取0~4;表格中每个方格代表一个像素点,比如第一行和第一列的表格数据为 [1.0, 1.0, 1.0],代表的就是 RGB三原色在图片的这个位置的取值情况(即R=1.0, G=1.0, B=1.0)。
当然我们还可以将这一定义继续扩展,即:我们可以用四阶张量表示一个包含多张图片的数据集,这四个维度分别是:图片在数据集中的编号,图片高度,宽度以及色彩。
张量在深度学习中是一个很重要的概念,因为它是一个深度学习框架中的核心组件,后续的所有运算和优化算法是基于张量进行的。
1.5 范数
有时我们需要衡量一个向量的大小。在机器学习中,我们经常使用被称为范数(norm)的函数衡量矩阵大小,Lp范围如下:
所以:L1 范数 ||x||:为 x 向量各个元素绝对值之和;L2 范数 为 x 向量各个元素平方和的开方。
1.6 方差
方差用来度量随机变量 X 与其数学期望 E(X) 的偏离程度,公式为:
方差总数一个非负数,当随机变量的可能值集中在数学期望的附加时,方差较小;反之方差大。由方差的大小可以推断出随机变量分布的分散程度。
1.7 协方差
协方差用来刻画两个随机变量 X, Y 的相关性,公式为:
如果协方差为正,说明X, Y 同向变化,协方差越大说明同向程度越高
如果协方差为负,说明X, Y反向运动,协方差越小说明反向程度越高
对于上述“同向”和“反向”的理解:
- 1,你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的
- 2,你变大,同时我变