KLDiv
KLDiv可以视作BergmanDivergence的特例
BergmanDivergence
注意到中值定理 f ( x ) = f ( y ) + ⟨ ∇ f ( y ) , x − y ⟩ + 1 2 ∥ x − y ∥ ∇ 2 f ( z ) 2 f(x) = f(y) + \langle \nabla f(y), x-y \rangle + \frac{1}{2} \| x - y \|^2_{\nabla^2 f(z)} f(x)=f(y)+⟨∇f(y),x−y⟩+21∥x−y∥∇2f(z)2 ,BergmanDivergence相当于 1 2 ∥ x − y ∥ ∇ 2 f ( z ) 2 \frac{1}{2} \| x - y \|^2_{\nabla^2 f(z)} 21∥x−y∥∇2f(z)2 。
Convexity
可以视作一种线性近似;屡次线性近似时 f ( x t ) − f ( x ∗ ) ⩽ ⟨ ∇ f ( x t ) , x t − x ∗ ⟩ = : ℓ t ( x t ) − ℓ t ( x ∗ ) f(x_t) - f(x_*) \leqslant \langle \nabla f(x_t), x_t-x_* \rangle =: \ell_t(x_t) - \ell_t(x_*) f(xt)−f(x∗)⩽⟨∇f(xt),xt−x∗⟩=:ℓt(xt)−ℓt(x∗) 其中 ℓ t ( x ) = ⟨ ∇ f ( x t ) , x ⟩ [ + σ 2 ∥ x − x t ∥ ∇ 2 f ( x t ) 2 ] \ell_t(x) = \langle \nabla f(x_t), x \rangle \left[ + \frac{\sigma}{2} \|x-x_t\|^2_{\nabla^2 f(x_t)} \right] ℓt(x)=⟨∇f(xt),x⟩[+2σ∥x−xt∥∇2f(xt)2] 。
凸性意味着局部最优也是全局最优。
凸性相当于忽视拓扑关系,只考虑密度关系。
Smoothness
一般形式 C L a , b ( X ) C^{a,b}_{L} ( \mathcal{X} ) CLa,b(X) ,例如Lipschitz C L 0 , 0 ( X ) C^{0,0}_{L} ( \mathcal{X} ) CL0,0(X) 。
Smoothness很重要的应用是证明梯度下降能够减小函数值(相当于某种程度上的存在性证明;类似的存在性并非总是显然,例如AdaBoost的证明隐式的要求每一轮总能训练出弱学习器)。
Convexity+Smoothness
二者与SubGradient的关系;关于对偶函数关系,强凸性(相较于凸性)与 C L 0 , 1 ( X ) C^{0,1}_{L} ( \mathcal{X} ) CL0,1(X) (相较于 C L 0 , 0 ( X ) C^{0,0}_{L} ( \mathcal{X} ) CL0,0(X) )的关系。
Conjugate
f ∗ ( y ) = max x ⟨ y , x ⟩ − f ( x ) f^*(y) = \max\limits_{x} \langle y,x \rangle - f(x) f∗(y)=xmax⟨y,x⟩−f(x) ?