理论补充2

一、仿射不变量

仿射不变量(affine invariant)是仿射变换的一种特征,指图形经过任何仿射对应(变换)都不改变的量。共线三点的单比是最基本、最重要的仿射不变量,其他如两平行的有向线段之比、平行平面(包括同一平面)上两个封闭图形的面积比等都是仿射不变量 [1]  

二、二阶临界点:

二次函数的一阶导数为0的点称为函数的驻点,驻点可以划分函数的单调区间。(驻点也称为稳定点,临界点)。

三、牛顿法

牛顿迭代法(Newton's method)又称为牛顿-拉夫逊(拉弗森)方法(Newton-Raphson method),它是牛顿在17世纪提出的一种在实数域和复数域上近似求解方程的方法。

迭代法也称辗转法,是一种不断用变量的旧值递推新值的过程,跟迭代法相对应的是直接法(或者称为一次解法),即一次性解决问题。迭代算法是用计算机解决问题的一种基本方法。它利用计算机运算速度快、适合做重复性操作的特点,让计算机对一组指令(或一定步骤)重复执行,在每次执行这组指令(或这些步骤)时,都从变量的原值推出它的一个新值。

利用迭代算法解决问题,需要做好以下三个方面的工作:

1、确定迭代变量

在可以用迭代算法解决的问题中,至少存在一个可直接或间接地不断由旧值递推出新值的变量,这个变量就是迭代变量。

2、建立迭代关系式

所谓迭代关系式,指如何从变量的前一个值推出其下一个值的公式(或关系)。迭代关系式的建立是解决迭代问题的关键,通常可以使用递推或倒推的方法来完成。

3、对迭代过程进行控制

在什么时候结束迭代过程是编写迭代程序必须考虑的问题。不能让迭代过程无休止地执行下去。迭代过程的控制通常可分为两种情况:一种是所需的迭代次数是个确定的值,可以计算出来;另一种是所需的迭代次数无法确定。对于前一种情况,可以构建一个固定次数的循环来实现对迭代过程的控制;对于后一种情况,需要进一步分析得出可用来结束迭代过程的条件。

四、正则化

正则化是通过为参数支付代价的方式,降低系统复杂度的方法。牛顿方法是一种适用于逻辑回归的求解方法,相比梯度上升法具有迭代次数少,消耗资源多的特点。

1.过拟合与欠拟合

回顾线性回归和逻辑回归这两个算法,我们发现特征这个词汇在频繁出现。特征是从不同的角度对事物进行描述,特征数量会决定模型的复杂程度和最终的性能表现。为了方便讨论,我们通过添加高阶多项式的方法来增加特征数量。原始数据集中只有一个特征,依次添加原始特征的2次方,3次方......直至6次方作为新的特征。

特征数量不足时会使得模型太简单,模型不能很好地拟合样本,这种情况称为欠拟合。随着特征数量的增加,模型的复杂度也逐渐增加,模型对样本的拟合程度也在逐步提升。当特征数量过多时会使得模型太复杂,模型可以极好地拟合样本,这种情况称为过拟合

显然欠拟合的情况是不好的,那么过拟合的情况如何呢?虽然模型很好地拟合了数据集,然而这不是一个好的模型,它对数据集过度拟合以至于对新样本的泛化能力很差。“如无必要,勿增实体”。参数特征的权重,当参数越大特征的影响越大,当参数越小特征的影响越小。如果能让参数尽量变小,就可以降低模型的复杂度。为了避免出现过拟合的情况,可以在代价函数中加入正则化项正则化项是关于参数的代价。因为存在代价,算法在寻找全局最优点的过程中,必须使得参数尽量最小化

正则化例子:

λ称为正则化参数,和学习率α一样,这是一个需要手动调节的参数。正则化参数λ的作用是调节以下两个目标间的平衡关系:目标一:使模型更好地拟合数据;目标二:使参数θ尽量最小化

正则化参数λ减小时,需要为参数θ支付的代价变小,模型的复杂度提高,存在的风险是可能会出现过拟合。当正则化参数λ增大时,需要为参数θ支付的代价变大,模型的复杂度降低,存在的风险是可能会出现欠拟合

注:1/2是为了后续求导的方便;正则化项的含义是,平均每个样本需要为参数支付的代价,代价以参数平方的形式体现。数据集中原本有n个特征,加入一列全为1的常数项后一共有n+1个特征,对应n+1个参数。

下图为特征相同的情况下,当正则项参数不同时模型的变化。随着正则项参数增大,需要为参数所支付的代价增大。为了最小化代价函数,必须降低特征的权重,进而简化了模型。

左图为所有参数都参与正则化的结果,因为正则化参数非常大,为了最小化代价函数,所有的参数都趋向于0。模型是经过原点的曲线,无法体现出样本的平均水平。右图为θ0不参与正则化的结果,因为正则化参数非常大,为了最小化代价函数,除了θ0外的参数都趋向于0。虽然模型的表现也很差,至少体现出样本的平均水平。

注意在理论说明时向量的下标是从0开始计数,在代码编写时向量的下标是从1开始计数。向量θ中的第一个元素即常数项对应的参数,这个元素不参与正则化。

将线性回归的函数更新如下:

将逻辑回归的函数更新如下:

五、曲率

曲率是描述曲线或曲面弯曲程度的性质。正曲率和负曲率表示了曲线或曲面在某一点上的弯曲方向和程度。
1. 正曲率:当曲线或曲面在某一点上向外弯曲时,称其具有正曲率。正曲率表示该点附近的切线或切平面向外凸出
2. 负曲率:当曲线或曲面在某一点上向内弯曲时,称其具有负曲率。负曲率表示该点附近的切线或切平面向内凹陷
可以用一个简单的例子来理解正曲率和负曲率的区别。考虑一个球面,球面上的每个点都具有正曲率,因为在每一点上球面都向外弯曲。相反,考虑一个内凹的碗面,碗面上的每个点都具有负曲率,因为在每一点上碗面都向内弯曲。

六、赫尔德条件

七.最速下降法:

最速下降法又称为梯度下降法。梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。在机器学习中,基于基本的梯度下降法发展了两种梯度下降方法,分别为随机梯度下降法和批量梯度下降法

八、复杂度界

九、Krylov 子空间

十、非线性共轭梯度

十一、极小元

十二、Lanczos算法

Lanczos算法是一种将对称矩阵通过正交相似变换变成对称三对角矩阵的算法,以20世纪匈牙利数学家Cornelius Lanczos命名。Lanczos算法实际上是Arnoldi算法对于对称矩阵的特殊形式,可应用于对称矩阵线性方程组求解Krylov子空间方法以及对称矩阵的特征值问题

十三、超线性收敛

十四、矩阵-矩阵乘法+矩阵-向量积

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值