Lecture2-3Guarantee of PLA

最新推荐文章于 2020-09-23 16:47:10 发布

zypandora

最新推荐文章于 2020-09-23 16:47:10 发布

阅读量327

点赞数

分类专栏： ML(NTU)

本文链接：https://blog.csdn.net/zypandora/article/details/48581219

版权

ML(NTU) 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

Linear Separable

If PLA halts(no mistakes),(necessary condition) $\mathcal{D}$ allows some $\mathbf{w}$ to make no mistake
Call $\mathcal{D}$ linear separable

Linear Separable $\mathcal{D} \Longleftrightarrow$ exists perfect $\mathbf{w_f}$ such that $y_n = sign(\mathbf{w_f^Tx_n})$

$\mathbf{w_f}$ perfect hence every $\mathbf{x_n}$ correctly away from the line:

y n (t) w T f x n (t) \geq min n y n w T f x n > 0

$y_{n(t)}\mathbf{w_f^T x_{n(t)}} \geq \min_n y_{n}\mathbf{w_f^T x_{n}} > 0$

Fact: $\mathbf{w_t}$ gets closer to $\mathbf{w_f}$ by updating.

w T f w t + 1 = w T f (w t + y n (t) x n (t)) \geq w T f w t + y n (t) w T f x n (t) \geq w T f w t + min n y n w T f x n > w T f w t

$\begin{align} \mathbf{w^T_fw_{t+1}} &= \mathbf{w^T_f}(\mathbf{w_t} + y_{n(t)}\mathbf{x_{n(t)}})\\ &\geq \mathbf{w^T_f}\mathbf{w_t} + y_{n(t)}\mathbf{w^T_f}\mathbf{x_{n(t)}}\\ &\geq \mathbf{w^T_f}\mathbf{w_t} + \min_n y_{n}\mathbf{w_f^T x_{n}}\\ &>\mathbf{w^T_f}\mathbf{w_t} \end{align}$

Fact: $\mathbf{w_t}$ doesn’t grow too fast.

Derivation

After T derivations, we can have:

Remark1

$∵ w T f w T ∴ w T f w T ∥ w T f ∥ = w T f (w T - 1 + y n (T) x n (T)) = w T f w T - 1 ∥ w T f ∥ + w T f y n ( T ) x n ( T ) ∥ w T f ∥ \geq w T f w T - 1 ∥ w T f ∥ + min n w T f y n x n ∥ w T f ∥ \geq w T f w T - 1 ∥ w T f ∥ + ρ \geq w T f w T - 2 ∥ w T f ∥ + 2 ρ . . . \geq T ρ$ $\begin{align} \because \mathbf{w^T_fw_{T}} &= \mathbf{w^T_f}(\mathbf{w_{T-1}} + y_{n(T)}\mathbf{x_{n(T)}})\\\\ \therefore \frac{\mathbf{w^T_fw_{T}}}{\parallel \mathbf{w^T_f}\parallel}&= \frac{\mathbf{w^T_f}\mathbf{w_{T-1}}}{\parallel \mathbf{w^T_f}\parallel}+ \frac{\mathbf{w^T_f}y_{n(T)}\mathbf{x_{n(T)}}}{\parallel \mathbf{w^T_f}\parallel}\\ &\geq \frac{\mathbf{w^T_f}\mathbf{w_{T-1}}}{\parallel \mathbf{w^T_f}\parallel}+ \frac{\min_n\mathbf{w^T_f}y_{n}\mathbf{x_{n}}}{\parallel \mathbf{w^T_f}\parallel}\\ &\geq \frac{\mathbf{w^T_f}\mathbf{w_{T-1}}}{\parallel \mathbf{w^T_f}\parallel}+ \rho\\ &\geq \frac{\mathbf{w^T_f}\mathbf{w_{T-2}}}{\parallel \mathbf{w^T_f}\parallel}+2\rho\\ &...\\ &\geq T\rho \end{align}$

Remark2

$∥ w T ∥ 2 = ∥ w T - 1 + y n (T) x n (T) ∥ 2 = ∥ w T - 1 ∥ 2 + ∥ y n (T) x n (T) ∥ 2 + 2 w T T - 1 y n (T) x n (T) \leq ∥ w T - 1 ∥ 2 + ∥ x n (T) ∥ 2 \leq ∥ w T - 1 ∥ 2 + max n ∥ x n ∥ 2 \leq ∥ w T - 1 ∥ 2 + R 2 \leq ∥ w T - 2 ∥ 2 + 2 R 2 . . . \leq T R 2$ $\begin{align} \parallel \mathbf{w_T}\parallel^2 &=\parallel\mathbf{w_{T-1}} + y_{n(T)}\mathbf{x_{n(T)}}\parallel^2\\ &= \parallel \mathbf{w_{T-1}}\parallel^2 + \parallel y_{n(T)}\mathbf{x_{n(T)}}\parallel^2 + 2\mathbf{w_{T-1}^T}y_{n(T)}\mathbf{x_{n(T)}}\\ &\leq \parallel \mathbf{w_{T-1}}\parallel^2 + \parallel\mathbf{x_{n(T)}}\parallel^2\\ &\leq\parallel \mathbf{w_{T-1}}\parallel^2 + \max_n\parallel\mathbf{x_n}\parallel^2\\ &\leq\parallel \mathbf{w_{T-1}}\parallel^2 + R^2\\ &\leq \parallel \mathbf{w_{T-2}}\parallel^2 + 2R^2\\ &...\\ &\leq TR^2 \end{align}$

$\therefore$ the perceptron iterates at most $T$ iterations before it stops, if $\mathcal{D}$ is linear separable

∴ 1 \geq w T f w T ∥ w f ∥ ∥ w T ∥ \geq T ρ T ‾ ‾ \sqrt R = T ‾ ‾ \sqrt ρ R ∴ T \leq R 2 ρ 2

$\therefore 1 \geq \frac{\mathbf{w_f^T w_T}}{\parallel \mathbf{w_f}\parallel \parallel \mathbf{w_T}\parallel} \geq \frac{T\rho}{\sqrt{T}R} = \sqrt{T}\frac{\rho}{R}\\ \therefore T \leq \frac{R^2}{\rho^2}$
where