Deep Learning花书学习笔记-------第2章 线性代数

第2章 线性代数

2.1 标量、向量、矩阵和张量 

  • 标量(scalar):标量是单独的数,只有大小没有方向。
  • 向量(vector):向量是既有大小又有方向的量,它可以形象化地表示为带箭头的线段。一个向量是一个数列(有序排列的数)。可以把向量看作空间中的点,每个元素是不同坐标轴上的坐标。
  • 矩阵(matrix):矩阵是一个二维数组。
  • 张量(tensor):坐标超过两维的数组。数组元素分布在多维坐标构成的网络中。
  • 转置(transpose):矩阵的操作,将矩阵以主对角线为轴作镜像,得到矩阵的转置。

2.2 矩阵和向量相乘 

  • 矩阵乘积:矩阵相乘最重要的方法是一般矩阵乘积。它只有在第一个矩阵的列数(column)和第二个矩阵的行数(row)相同时才有意义。

  •  Hadamard乘积:矩阵对应元素相乘。

两相同维数的向量x和向量y的点积可看作矩阵乘积x^{T}y。向量的点积是一个标量,标量的转置是自身,两个向量的点积满足交换律x^{T}y = y^{T}x,然而,矩阵的乘积并不满足AB \neq BA

 2.3 单位矩阵和逆矩阵

  • 单位矩阵(identity matrix):单位矩阵表示I或E,主对角元素都是1,其他元素都是0。
  • 逆矩阵(matrix inversion):对于矩阵A,若存在一个矩阵A^{-1}使得AA^{-1} = IA^{-1}为矩阵A的逆矩阵,并且称矩阵A可逆。

2.4 线性相关和生成子空间 

  • 线性组合(linear combination): 向量的线性加权(标量)和。

  • 生成子空间(span):原始向量线性组合后能到达的点的集合。确定Ax = b是否有解,相当于确定向量b是否在A列向量的生成子空间中。为了使Ax = b对于任意向量b都存在解,要求A的列空间构成整个R空间。
  • 线性相关(linear dependence):如果一组向量中的任何一个向量都不能表示成其他向量的线性组合,则这组向量是线性无关的,否则为线性相关。如果一个向量和一组向量线性相关,则将这个向量加入这组向量中不会增加这组向量生成子空间的大小。

2.5 范数 

  • 范数(norm):用来衡量向量大小的量。L^{p}范数定义为: 

范数衡量了向量到原点的距离,下图表示了p从无穷到0变化时,范数值为1的点构成的图形。

è¿éåå¾çæè¿°

p为0时,L-0范数表示向量中非零元素个数之和。常用来统计向量中非零元素的个数,使用L-0范数来优化参数矩阵时,是希望参数矩阵大部分元素为0,使得参数矩阵稀疏。但由于L-0范数求解是个NP-Hard问题,常用L-1范数近似求解(对向量缩放一定倍数不会改变向量非零元素的个数)。

p为1时,L-1范数为向量中所有非零元素之和。L-1范数也称为稀疏规则算子,也是通过使得参数矩阵元素为零来使其稀疏。L-1范数可以用于特征筛选。

p为2时,L-2范数为欧几里得范数,表示从原点到向量的欧几里得距离。使用L-2范数优化参数矩阵时,会使得参数元素都很小,尽量接近于0,参数越小时,模型越简单,因此L-2范数可以防止模型过拟合。

p为无穷时,为最大范数,表示向量中具有最大幅值的元素的绝对值。

2.6 特殊类型的矩阵和向量

  • 对角矩阵(diagonal matrix):只在主对角线上含有非零元素,其他位置都是零。 
  • 单位向量(unit vector):具有单位范数的向量(范数值为1,即长为1)。
  • 正交矩阵(orthogomal matrix):正交:x^{T}y = 0表示向量x和y正交(向量夹角为90度) 。若x和y范数均为1(长为1),则向量x和y标准正交。行向量和列向量分别标准正交的矩阵为正交矩阵。(行,列长均为1,且行向量之间,列向量之间均为90度夹角)。
  • 矩阵的秩(rank):矩阵的秩是矩阵的极大线性无关组中的向量的个数。行秩:矩阵的行向量中线性无关的向量个数,列秩:矩阵的列向量中线性无关的向量个数。对方阵来说,行秩和列秩相等,对于m*n的矩阵来说,秩为行秩和列秩中较小的那个。矩阵的秩在空间上表示为该矩阵能够张成的空间的维度。

2.7 特征分解 

特征值分解(EVD)是将矩阵分解为特征向量和对应的特征值类似于力的分解的过程,特征向量是力的方向,特征值是在这个方向上力的大小。对矩阵分解后按照特征值大小进行排序,可进行主成分分析。 

2.8 奇异值分解

奇异值分解(SVD)是将矩阵A分解成三个矩阵的乘积 。

奇异值分解表示了一个向量到另一个向量的线性变换,包括旋转,缩放和投影等。

2.12 实例:主成分分析

主成分分析(PCA)是一种特征降维的机器学习算法,将原有的n维特征映射到k维上,这k维特征即为主成分。

给定原始特征矩阵X,通过变换矩阵W,进行特征降维得到变换后的矩阵L

矩阵分解,X = LW^{-1},即X = LRW是投影矩阵,R是投影矩阵的逆。

目标函数:均方误差最小原则。

R为投影方向。 

特征值的意义:样本在w方向投影的均值(和)最大。

PCA就是从原始特征空间中每次都找使得数据方差最大的相互正交的坐标轴,进行投影,得到一个主成分,接下来继续找使得数方差最大的相互正交的坐标轴。

参考文献:

1.《Deep Learning》.Ian Goodfellow/Yoshua Bengio

2.https://baike.baidu.com

3.https://blog.csdn.net/sinat_29957455/article/details/80206589

4.国科大2018秋季《机器学习》课件,Chapter7 Feature Selection & Extraction

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
全书共分7,包括引论、线性方程组求解、线性最小二乘问题、非对称特征值问题、对称特征问题和奇异值分解、线性方程组迭代方法及特征值问题迭代方法,本书不仅给出了数值线性代数的常用算法,而且也介绍了多重网格法和区域分解法等新算法,并指导读者如何编写数值软件以及从何处找到适用的优秀数值软件。   本书可作为计算数学和相关理工科专业一年级研究生的教材,也可作为从事科学计算的广大科技工作者的参考书。 第1 引论  1.1 基本符号  1.2 数值线性代数的标准问题  1.3 一般的方法   1.3.1 矩阵分解   1.3.2 扰动理论和条件数   1.3.3 舍入误差对算法的影响   1.3.4 分析算法的速度   1.3.5 数值计算软件  1.4 例:多项式求值  1.5 浮点算术运算  1.6 再议多项式求值  1.7 向量和矩阵范数  1.8 第1的参考书目和其他话题  1.9 第1问题 第2 线性方程组求解  2.1 概述  2.2 扰动理论  2.3 高斯消元法  2.4 误差分析   2.4.1 选主元的必要性   2.4.2 高斯消元法正式的误差分析   2.4.3 估计条件数   2.4.4 实际的误差界  2.5 改进解的精度   2.5.1 单精度迭代精化   2.5.2 平衡  2.6 高性能分块算法   2.6.1 基本线性代数子程序(blas)   2.6.2 如何优化矩阵乘法   2.6.3 使用3级blas改组高斯消元法   2.6.4 更多的并行性和其他性能问题  2.7 特殊的线性方程组   2.7.1 实对称正定矩阵   2.7.2 对称不定矩阵   2.7.3 带状矩阵   2.7.4 一般的稀疏阵   2.7.5 不超过o(n2)个参数的稠密矩阵  2.8 第2的参考书目和其他的话题  2.9 第2问题 第3 线性最小二乘问题  3.1 概述  3.2 解线性最小二乘问题的矩阵分解   3.2.1 正规方程   3.2.2 qr分解   3.2.3 奇异值分解  3.3 最小二乘问题的扰动理论  3.4 正交矩阵   3.4.1 豪斯霍尔德变换   3.4.2 吉文斯旋转   3.4.3 正交矩阵的舍入误差分析   3.4.4 为什么用正交矩阵  3.5 秩亏最小二乘问题   3.5.1 用svd解秩亏最小二乘问题   3.5.2 用选主元的qr分解解秩亏最小二乘问题  3.6 最小二乘问题解法的性能比较  3.7 第3的参考书目和其他话题  3.8 第3问题 第4 非对称特征值问题  4.1 概述  4.2 典范型  4.3 扰动理论  4.4 非对称特征问题的算法   4.4.1 幂法   4.4.2 逆迭代   4.4.3 正交迭代   4.4.4 qr迭代   4.4.5 使qr迭代有实效   4.4.6 海森伯格约化   4.4.7 三对角和双对角约化   4.4.8 隐式位移的qr迭代  4.5 其他的非对称特征值问题   4.5.1 正则矩阵束和魏尔斯特拉斯典范型   4.5.2 奇异矩阵束和克罗内克典范型   4.5.3 非线性特征值问题  4.6 小结  4.7 第4参考书目和其他话题  4.8 第4问题 第5 对称特征问题和奇异值分解  5.1 概述  5.2 扰动理论  5.3 对称特征问题的算法   5.3.1 三对角qr迭代   5.3.2 瑞利商迭代   5.3.3 分而治之   5.3.4 对分法和逆迭代   5.3.5 雅可比法   5.3.6 性能比较  5.4 奇异值分解算法   5.4.1 双对角svd的qr迭代及其变形   5.4.2 计算双对角svd达到高的相对精度   5.4.3 svd的雅可比法  5.5 微分方程和特征值问题   5.5.1 toda格子   5.5.2 与偏微分方程的关系  5.6 第5参考书目和其他话题  5.7 第5问题 第6 线性方程组迭代方法  6.1 概述  6.2 迭代法的在线(on-line)帮助  6.3 泊松方程   6.3.1 一泊松方程   6.3.2 二泊松方程 6.3.3 用克罗内克积表达泊松方程 6.4 解泊松方程方法小结  6.5 基本迭代法   6.5.1 雅可比法   6.5.2 高斯-塞德尔法 6.5.3 逐次超松弛法 6.5.4 模型问题的雅可比、高斯-塞德尔和sor(ω)的收敛性 6.5.5 雅可比、高斯-塞德尔和sor(ω)法明细的收敛准则   6.5.6 切比雪夫加速和对称sor(ssor)  6.6 克雷洛夫子空间方法   6.6.1 通过矩阵-向量乘法得到关于a的信息   6.6.2 利用克雷洛夫子空间kk解ax=b   6.6.3 共轭梯度法   6.6.4 共轭梯度法的收敛性分析   6.6.5 预条件   6.6.6 解ax=b的其他克雷洛夫子空间算法  6.7 快速傅里叶变换   6.7.1 离散傅里叶变换   6.7.2 用傅里叶级数解连续模型问题   6.7.3 卷积   6.7.4 计算快速傅里叶变换  6.8 块循环约化  6.9 多重网格法   6.9.1 二泊松方程多重网格法概述   6.9.2 一泊松方程的多重网格法详述  6.10 区域分解法   6.10.1 无交叠方法   6.10.2 交叠方法  6.11 第6的参考书目和其他话题  6.12 第6问题 第7 特征值问题的迭代方法  7.1 概述  7.2 瑞利-里茨方法  7.3 精确算术运算的兰乔斯算法  7.4 浮点算术运算的兰乔斯算法  7.5 选择正交化的兰乔斯算法  7.6 选择正交化之外的方法  7.7 非对称特征值问题的迭代算法  7.8 第7的参考书目和其他话题  7.9 第7问题 参考文献(图灵网站下载) 索引
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值