优化入门知识

​KLDiv

KLDiv可以视作BergmanDivergence的特例

BergmanDivergence

注意到中值定理 f ( x ) = f ( y ) + ⟨ ∇ f ( y ) , x − y ⟩ + 1 2 ∥ x − y ∥ ∇ 2 f ( z ) 2 f(x) = f(y) + \langle \nabla f(y), x-y \rangle + \frac{1}{2} \| x - y \|^2_{\nabla^2 f(z)} f(x)=f(y)+f(y),xy+21xy2f(z)2 ,BergmanDivergence相当于 1 2 ∥ x − y ∥ ∇ 2 f ( z ) 2 \frac{1}{2} \| x - y \|^2_{\nabla^2 f(z)} 21xy2f(z)2

Convexity

可以视作一种线性近似;屡次线性近似时 f ( x t ) − f ( x ∗ ) ⩽ ⟨ ∇ f ( x t ) , x t − x ∗ ⟩ = : ℓ t ( x t ) − ℓ t ( x ∗ ) f(x_t) - f(x_*) \leqslant \langle \nabla f(x_t), x_t-x_* \rangle =: \ell_t(x_t) - \ell_t(x_*) f(xt)f(x)f(xt),xtx=:t(xt)t(x) 其中 ℓ t ( x ) = ⟨ ∇ f ( x t ) , x ⟩ [ + σ 2 ∥ x − x t ∥ ∇ 2 f ( x t ) 2 ] \ell_t(x) = \langle \nabla f(x_t), x \rangle \left[ + \frac{\sigma}{2} \|x-x_t\|^2_{\nabla^2 f(x_t)} \right] t(x)=f(xt),x[+2σxxt2f(xt)2]

凸性意味着局部最优也是全局最优。

凸性相当于忽视拓扑关系,只考虑密度关系。

Smoothness

一般形式 C L a , b ( X ) C^{a,b}_{L} ( \mathcal{X} ) CLa,b(X) ,例如Lipschitz C L 0 , 0 ( X ) C^{0,0}_{L} ( \mathcal{X} ) CL0,0(X)

Smoothness很重要的应用是证明梯度下降能够减小函数值(相当于某种程度上的存在性证明;类似的存在性并非总是显然,例如AdaBoost的证明隐式的要求每一轮总能训练出弱学习器)。

Convexity+Smoothness

二者与SubGradient的关系;关于对偶函数关系,强凸性(相较于凸性)与 C L 0 , 1 ( X ) C^{0,1}_{L} ( \mathcal{X} ) CL0,1(X) (相较于 C L 0 , 0 ( X ) C^{0,0}_{L} ( \mathcal{X} ) CL0,0(X) )的关系。

Conjugate

f ∗ ( y ) = max ⁡ x ⟨ y , x ⟩ − f ( x ) f^*(y) = \max\limits_{x} \langle y,x \rangle - f(x) f(y)=xmaxy,xf(x)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值