文章目录
三、凸优化算法
-
可微凸优化问题对偶函数和罚函数形式:二范数和 l o g − b a r r i e r log-barrier log−barrier
-
黄金分割迭代法,回溯直线搜索 A r m i j o R u l e Armijo\quad Rule ArmijoRule方法
-
最后解释的特征值差距很大的“扁”图导致算法收缩性较差的解释:对称矩阵的主轴定理:特征值描述一个“椭圆”的长轴和短轴大小, H e s s i a n Hessian Hessian矩阵的特征值控制了迭代算法的步长,配合视频效果奇佳
-
迭代方向选择:最速下降法的范数约束,梯度下降和最速下降的变种:坐标轮换法, f ( x ) f(x) f(x)在某些点不可微
-
关于"已经 m i n f 0 ( x k + d k ) min\quad f_0(x^k+d^k) minf0(xk+dk)了,为什么还要再 m i n f 0 ( x k + α k d k ) min\quad f_0(x^k+\alpha^k d^k) minf0(xk+αkdk),不能直接 x k + 1 = x k + d k x^{k+1}=x^{k}+d^k xk+1=xk+dk吗,这样不是也已经使得 f 0 ( x k + 1 ) f_0(x^{k+1}) f0(xk+1)最小了吗”的回答:系数过大Loss不收敛,系数过小收敛太慢, d k d^k dk一般只会利用方向信息, α k \alpha^k αk实际表示了学习率,控制了步长,另外求最小时使用了近似,找到的 d k d^k dk实际并不能使其 m i n min min,再次利用 α \alpha α可以在 d d d方向上利用线性搜索算法实际使得 m i n f min\quad f minf
-
在解有等式约束的优化问题时,理论上可以直接解 K K T KKT KKT条件,但实际操作中 K K T KKT KKT条件中的稳定性条件可能是一个非线性方程,很难解。因此在解有约束优化问题时,实际是放弃了直接解 K K T KKT KKT条件(视频中讨论的方法不是在找方法解 K K T KKT KKT条件,
这里强调是因为老师的说法貌似很有误导性),而也是采用迭代的方式解每一小步,每一小步也是一个有约束问题,此时的问题可以通过泰勒展开成二次,使得 K K T KKT KKT条件中的稳定性条件的方程是一个线性方程,而线性方程是方便解出的 -
视频中提到最优值处的 H e s s i a n Hessian Hessian矩阵为零的理解:在最优值处的第 k k k步用泰勒展开拟合时是一条水平直线,梯度和 H e s s i a n Hessian Hessian应该都为零,只有常数项,只有这样才能表达出是一个直线。因此老师说对于凸问题,第 k k k步的 ▽ 2 f ( x k ) ▽^2f(x^k) ▽2f(xk)在一般情况下是大于零的(凸函数的二阶条件),最优值处是零
-
增广拉格朗日法例题解析, f ( x ) + g ( x ) f(x)+g(x) f(x)+g(x)的交替方向拉格朗日乘子法,分布式计算