最优化理论

最新推荐文章于 2020-10-07 19:04:25 发布

zyp361161

最新推荐文章于 2020-10-07 19:04:25 发布

阅读量9.2k

点赞数 5

本文链接：https://blog.csdn.net/zyp361161/article/details/86562084

版权

最优化理论

机器学习简单来说，主要做的就是线性逼近，其根本就是优化问题：
•先初始化一下权重参数
•然后利用优化方法来优化这个权重
•直到准确率不再是上升
•迭代停止

通常的形式：优化目标（目标函数） + 约束条件一般可归结为对目标函数（Objective Function）（或称之为误差函数 Error Function、代价函数Cost Function、损失函数Loss Function）求极值的问题，即对于目标函数，找到一个极值点，使得最小（或最大）

极限

“极限”是数学中的分支——微积分的基础概念
广义的“极限”是指“无限靠近而永远不能到达”的意思。
数学中的“极限”指某一个函数中的某一个变量，此变量在变大（或者变小）的永远变化
的过程中，逐渐向某一个确定的数值A不断地逼近而“永远不能够重合到A” 的过程中。
此变量的变化，被人为规定为“永远靠近而不停止”，“不断地极为靠近A点的趋势”。

线性逼近

泰勒公式

泰勒公式将一个在x=x 0 处具有n阶导数的函数f(x)利用关于(x-x 0 )的n次多项式来逼近函数的方法。

凸函数

任意两点的连线都在凸函数图形以内

最优化理论

相关性质：
•连续、可微可导
•任意两点的连线都在函数曲线的下面
•局部最小值就是全局最小值
•若f1和f2为定义在凸集S上的两个凸函数，则其和f=f1+f2仍为定义在S上的凸函数

最小二乘法

•最小二乘法（ Least Squares Method，又称最小平方法），是一种数学优化技术，求解机器学习算法的模型参数的常用方法之一
•通过最小化误差的平方和寻找数据的最佳函数匹配
•利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小
•最小二乘法还可用于曲线拟合

不关心S的值具体是多少，只关心S取最小值的时候模型参数arg w 的取值

Eg：

a,b加帽子表示对值的估计值，是个推测值，不是真实值

扩展：链式求导法则

链式法则(chain rule)：

若h(x)=f(g(x))，则h'(x)=f'(g(x))g'(x)

链式法则用文字描述，就是“由两个函数凑起来的复合函数，其导数等于里边函数代入外边函数的值之导数，乘以里边函数的导数。

举例：

f(x)=x²,g(x)=2x＋1, 则

{f[g(x)]}'

=2[g(x)]×g'(x)

=2[2x＋1]

梯度下降

•梯度下降算法（Gradient Descent Optimization），是迭代法的一种，也称为最速下降法
•在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一
•在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。