关于在线学习的封闭解 part-5

最新推荐文章于 2023-01-12 17:38:46 发布

于建民

最新推荐文章于 2023-01-12 17:38:46 发布

阅读量868

点赞数

分类专栏：技术博客文章标签：封闭解 FTRL

本文链接：https://blog.csdn.net/yujianmin1990/article/details/72983651

版权

技术博客专栏收录该内容

79 篇文章 28 订阅

订阅专栏

前言

　　前面讲了这么多，如果没法简单方便地求解 $x_{t+1} = \underset{x}{argmin} \left [ h_{0:t}(x) \right ]$ ，岂不是开心不起来了。
　　对SGD，是可以顺利地求得封闭解的，这个前面的文章已经有讨论。
　　对一般形式下 $h$ ，还能很方便地求解么？什么情况封闭解是可以求得的？下面仅给出几个一般样式的解。

不同形式 $h$ 的解

　　1） $x^* = \underset{x \in R}{argmin} |x|$ 　　
　　
$x * = s i g n (x)$ $x^* = sign(x)$
　　2） $x^* = \underset{x \in R}{argmin} \left [ \frac{1}{2}(b-x)^2 + \lambda |x| \right ]$ ,???。
　　 $x * = ⎧ ⎩ ⎨ ⎪ ⎪ 0 (1 - λ | b |) b, | b | < λ, o t h e r$ $x^* = \left\{\begin{matrix} 0 &, |b|< \lambda \\ (1-\frac{\lambda}{|b|})b &, other \end{matrix}\right.$
　　3） $x^* = \underset{x \in R^n}{argmin} ||x||_1 = \underset{s \in \left\{-1, +1\right\}^n}{max} s^T x$
　　 $x * k = ⎧ ⎩ ⎨ ⎪ ⎪ [- 1, 1] 1 - 1, x k = 0, x k > 0, x k < 0$ $x_k^* = \left\{\begin{matrix} [-1,1] &,x_k=0 \\ {1} &,x_k>0 \\ {-1} &,x_k<0 \end{matrix}\right.$
　　4） $x^* = \underset{x \in R^n}{argmin} ||x||_2$
　　 $x * = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ {x | | x | | 2} {g | | | g | | 2 \leq 1}, x \neq 0, x = 0$ $x^* = \left\{\begin{matrix} \left\{ \frac{x}{||x||_2}\right\} &, x \neq 0 \\ \left\{ g| ||g||_2 \leq 1 \right\} &, x = 0 \end{matrix}\right.$
　　5） $x^* = \underset{x \in R^n}{argmin} \left [ bx + \lambda||x||_1 + \frac{\sigma}{2}||x||_2^2 \right ]，\lambda \geq 0， \sigma>0$
　　 $x * k = ⎧ ⎩ ⎨ 0 - 1 2 (b k - λ * s i g n (b k)), | b k | \leq λ, o t h e r w i s e$ $x_k^* = \left\{\begin{matrix} 0 &,|b_k| \leq \lambda \\ -\frac{1}{2}(b_k-\lambda* sign(b_k)) &, otherwise \end{matrix}\right.$

待解问题

　　针对在线学习 $x_{t+1} = \underset{x}{argmin} \left [ f_{1:t}(x) + r_{0:t}(x) \right ]$ 的各种不同版本，如何求解是个问题。
　　假设 $f_t(x)$ 损失函数是凸函数，则可以通过凸函数的性质和Regret放缩定理，定义 $\hat{f}_t(x)=g_t x$ ，而不影响最值求取。
　　这个假设，一是为了方便求解计算，二是实际问题中构造损失函数也多为凸函数。
　　1) $r_t(x)$ 为origin-central形式的，比如 $r_t(x) = \frac {\sigma_t} {2} ||x||_2^2$
　　　　则 $h_{0:t} = f_{1:t}(x) + r_t(x) = g_{1:t} x + \frac {\sigma_t} {2} ||x||_2^2$
　　2) $r_t(x)$ 为proximal形式的，比如 $r_t(x) = \frac{\sigma_t}{2} ||x-x_t||_2^2$
　　　　则 $h_{0:t} = f_{1:t}(x) + r_t(x) = g_{1:t} x + \frac {\sigma_t} {2} ||x-x_t||_2^2$ ，其中 $||·||_2^2$ 可以拆开。
　　3) 在其他约束下的 $x_{t+1}$ 求解，比如 $x \in \chi$ 或者 $||x||_2 \leq \lambda$ 或者 $||x||_1 \leq \lambda$
　　　　则 $x_{t+1} = \underset{x \in \chi} {argmin} [ g_{1:t} x + r_{0:t}(x) ]$ 。每次先求 $x\in \chi$ 约束下的解，再投射到 $\chi$ 上求解。
　　　　或 $h_{0:t} = g_{1:t}x + r_t(x) + \lambda (||x||_2-1)$ 类似
　　4）FTRL-Proximal with $x \in \chi$
　　　　 $x_{t+1} = \underset{x \in \chi}{argmin} \left [ g_{1:t}x + \frac{\sigma_{0:t}}2||x-x_t||_2^2 + \lambda ||x||_1 \right ]$
　　　　　　　 $= \underset{x \in \chi}{argmin} \left [(g_{1:t} + \sigma_{0:t}x_t )x + \frac{\sigma_{0:t}}2||x||_2^2 + \lambda ||x||_1 + constant \right ]$
　　　　　　　可以每次迭代先求无 $x \in \chi$ 约束的解，利用上面的(5)解得 $u_{t+1}$ ，
　　　　　　　 $u_{t+1} = \left\{\begin{matrix} 0 &, |z_{k,i}| < \lambda \\ -\frac{1}{\sigma_{0:t}}[z_{t,i}-\lambda * sign(z_{t,i})] &, other\\ \end{matrix}\right.$
　　　　　　　其中， $z_{t,i}=g_{1:t, i} + \sigma_{0:t, i}x_{t, i}$
　　　　　　　然后，再投射到 $\chi$ 上， $x_{t+1}=\underset{x\in \chi}{argmin}||x-u_{t+1}||_2$ ，得到当次解。
　　　　　

思考

　　1) $f_{1:t}(x) + r_{0:t}(x)$ 是一个整体，只要满足整体是强凸函数即可，在前面的上限可期证明中可知。若 $f_t(x)$ 是凸函数，则可以不用 $r_t(x)$ ，在直接计算 $x_{t+1} = \underset{x}{argmin} f_{1:t}(x)$ 。
　　2) 若需要引入第三个Regular项到 $h$ ，也需要使得 $h_{0:t}$ 满足强凸条件。
　　3) 这里所研究的都是在 $x_{t+1} = \underset{x}{argmin} [ loss_{1:t}(x) + r_{0:t}(x) ]$ 或者 $x_{t+1} = \underset{x}{argmin} [ h_{0:t}(x) ]$ 形式下的在线学习方式，其他也可以开发出其他的在线方法。大道万千，殊途同归，都是为了模型更稳定和更小的预测误差。
　　4) 为什么会用 $\eta_t = \frac{1}{\sigma_{0:t}}$ 来表示学习率和强凸参数的关系？该等式等价于 $\sigma_t = \frac{1}{\eta_t} - \frac{1}{\eta_{t-1}}$ ，其中学习率 $\eta_t$ 是个非增函数。
　　5) $\eta_t$ 的构造思路是什么？其中 $R和G$ 是根据实际的loss函数函数和 $x$ 的约束来给出的吗？为什么？
　　6) 再思考下 $r_{0:t}(x)=\frac{\sigma_{0:t}}{2}||x-x_t||_2^2$ 与 $h_{0:t}(x)$ 的解的关系。
　　7)关于封闭解，有个思路是取 $x_t$ 使得 $0 \in \partial F(x_t)$ ，对试探构造封闭解有帮助，对证明也有帮助。
　　8)传统学习与在线学习的区别。
　　前者已知样本总量，对模型的误差可以有期望估计，直接求目标函数的最优解；后者是未知样本量，无法估计模型的期望误差，只能采取收敛误差的方式，不发散即为胜利。

小结

　　0）解决的问题：A，什么情况下，是误差收敛的。B，给出了一般形式下的封闭解样式。
　　1） $\eta_t$ 的构造原理，未完全解决。
　　2）封闭解的问题，没有完全解决，没有给出一个通用性强的解形式或者求解思路。
　　3）代码实现，没有。
　　有github上，别人实现的代码：https://github.com/CastellanZhang/alphaFM/blob/master/src/FTRL/ftrl_trainer.h
　　4）主要讨论的是 $x_{t+1}=\underset{x}{argmin}[ h_{0:t}(x) ]$ 形式下的上限收敛问题。
　　关于 $h_{0:t}(x)$ 的组成，可以选择任意符合误差上限收敛条件的函数。
　　 $h_{0:t}(x)$ 主要形式有两种:
　　　　　　　　 $h_{0:t}(x)=f_{1:t}(x) + r_{0:t}(x)$
　　　　　　　　 $h_{0:t}(x)=f_{1:t}(x) + r_{0:t}(x) +\alpha_{1:t} \Psi(x)$
　　5）在线优化理论，是对凸函数的充分利用的理论。涉及到凸函数的性质，和凸函数间关系性质。
　　

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

于建民

关注关注

0
点赞

踩

1

收藏

觉得还不错? 一键收藏

0
评论

关于在线学习的封闭解 part-5

前言　　前面讲了这么多，如果没法简单方便地求解xt+1=argminx[h0:t(x)]x_{t+1} = \underset{x}{argmin} \left [ h_{0:t}(x) \right ]，岂不是开心不起来了。　　对SGD，是可以顺利地求得封闭解的，这个前面的文章已经有讨论。　　对一般形式下hh，还能很方便地求解么？什么情况封闭解是可以求得的？下面仅给出几个一般样式的解。
复制链接

扫一扫

专栏目录

OSEK标准_ISO 17356-5-2006_Part 5 OSEKVDX Network Management (NM)

07-04

ISO 17356-5:2006 Part 5:OSEK/VDX Network Management(NM) 该标准最后一次审查和确认是在2020年。因此，该版本仍然是最新的。摘要 ISO 17356-5:2006定义了一组用于节点监控node monitoring(NM)的服务。NM由以下...

part-action-with-ctx-release

10-21

part_action_with_ctx_release

参与评论您还未登录，请先登录后发表或查看评论

封闭解(Closed-form solution)、解析解(Analytical solution)、数值解(Numerical solution) 释义...

weixin_34080571的博客

11-30 1758

解析解(Analytical solution) 就是根据严格的公式推导，给出任意的自变量就可以求出其因变量，也就是问题的解，然后可以利用这些公式计算相应的问题。所谓的解析解是一种包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。用来求得解析解的方法称为解析法(Analytical techniques)，解析法即是常见的微积分技巧，例如分离变量法等。解析解是一个封闭形式(Close...

最小二乘问题：封闭解（closed-form solution）和数值解（numerical solution）的辨析

bxbjk的博客

02-19 4837

之前看论文遇见closed-form solution，当时小白一个，不知所云，闹了笑话，以为是相近形式的方法，最后无意间才知道叫做封闭解，哈哈哈，然后想和大家一起分享一下关于封闭解与数值解的区别。我主要用来求解最小二乘问题，以下根据最小二乘问题展开。封闭解：其实也叫作解析解，通过解析法进行函数求解，也就是通过严格的公式，根据输入的自变量，求解出因变量。ICP常用的求解方法有奇异分解法（S...

关于解析解（闭合解、封闭解）和数值解

crystal_krystal_j的博客

10-29 9540

在线学习

llzwdtt专栏

02-28 665

转自：http://www.cvchina.info/2011/03/27/online-learning/ 很久很久以前有一老师和一学生，每天老师让学生回答一个问题，然后老师告诉学生正确答案，学生则比较正确答案来更新自己的知识。就这样学生终成大师，与老师幸福的生活了下去。不过，在现实的世界里，故事是另外一个版本：在网络的一头住着一挨踢男，另一头住着一小编。每天小编写一封垃圾邮件给挨踢男。苦

F5部署红宝书Part I -III.rar

05-21

F5部署红宝书Part I - 基础安装部署，F5部署红宝书Part II - 互联网出口部署，F5部署红宝书Part III - 服务器前端部署

Unsupervised Part-based Weighting Aggregation

12-10

Unsupervised Part-based Weighting Aggregation of Deep Convolutional Features for Image Retrieval.pdf

高级编程培训-编程语句深入学习 Part 5.pptx

12-21

个人整理的海克斯康（pc-dmis）脱机编程——高级培训PPT讲义，包括脱机编程技巧、编程语句入门、数据文档自动传输、编程语句深入学习和典型程序的讲解。

在线学习--online learning

weixin_30500105的博客

04-25 542

在线学习 online learning Online learning并不是一种模型，而是模型的训练方法。能够根据线上反馈数据，实时快速的进行模型调优，使得模型能够及时反映线上的变化，提高线上预测的准确率。在线模型的评估之--Mistake Bound 假设有一个模型完全预测正确，Mistake Bound表示的就是找到这个模型最多犯错的次数。用Halving算法来解决这个问...

在线学习(online learning)——Chapter 2 Problem Formulations and Related Theory

weixin_47692652的博客

01-12 571

在线学习(online learning)——Chapter 2 Problem Formulations and Related Theory

在线学习(online learning)——Chapter 1 What is online learning

weixin_47692652的博客

01-11 2584

A Modern Introduction to Online Learning——Chapter 1 What is online learning

regret 遗憾，模型的遗憾是什么呢

WIFI下的365

08-24 2804

我的遗憾先说一下我的一个小遗憾，没有去诺坎普看梅西踢一场球，送给梅老板一句话，莫愁天下无知己，天下谁人不识君。模型的遗憾从模型的学习方式可以把模型分为两种，在线学习和批量学习批量学习：一次全部学完，用一些性能指标来评价，好就是好坏就是坏，它不懂什么叫遗憾，我也就不谈它了 在线学习：人如其名，我在线上一直学，一直学，不断成长，试图成为一个完美的模型，可哪里有完美的模型呢，这就产生了遗憾遗憾的定义 在线学习的目的是为了成为一个完美的模型，无线的最小化累计的损失，当一个模型迭代了T轮以后，累计的损失

在线学习算法一些感悟与理解

Sharing_CT的博客

12-14 3082

最近在学习关于解决bandits问题的一些算法，熟悉的人都明白，MAB问题主要是寻找一个平衡点，也就是说，找一个trade-off 点。目前经典的算法有贪婪算法，UCB1,UCB2,以及context-based UCB等。它们都有一个共同点，它们是基于在线学习（learning algorithm）的解决思路。对于在线学习，我也搜索了一些资料，下面我结合资料谈谈看法，由于资料是当时摘抄的，我也忘...

解析解、闭合解和数值解

热门推荐

开飞机的小毛驴儿

02-28 1万+

原文在这里，总结的不错。在解组件特性相关的方程式时，大多数的时候都要去解偏微分或积分式，才能求得其正确的解。依照求解方法的不同，可以分成以下两类：解析解和数值解。解析解(analytical solution)就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解, 他人可以利用这些公式计算各自的问题. 所谓的解析解是一种包含分式、三角函数、指数

各大公司广泛使用的在线学习算法FTRL详解

weixin_30633507的博客

06-26 634

转载请注明本文链接：http://www.cnblogs.com/EE-NovRain/p/3810737.html 　　现在做在线学习和CTR常常会用到逻辑回归（Logistic Regression），而传统的批量（batch）算法无法有效地处理超大规模的数据集和在线数据流，google先后三年时间（2010年-2013年）从理论研究到实际工程化实现的FTRL（Follow-the-r...

递归、闭合形式解（closed form solution）

Chinainvent的专栏

12-18 9946

一、递归的意义。我以前一直误解了递归的意义，并为自己能在程序中多写几个递归高兴。现在我发现错了！递归显然能让程序看起来非常简洁，但是，由于会引起函数的多次调用，将大大的降低程序的效率。那我们讨论递归干什么？基于以下这两个愿因：第一，也是最重要的原因，递归告诉了我们一种思考问题的方法。因为，确实是有一些问题，如果不用递归的思想去思考，我们将束手无策！最明显的例子就是汉诺塔的问题。但是，正如前面提到的

数学模型之解析解、闭合解、数值解

qq_26460507的博客

04-25 4011

1、在解组件特性相关的方程式时，大多数的时候都要去解偏微分或积分式，才能求得其正确的解。依照求解方法的不同，可以分成以下两类：解析解和数值解。解析解(analytical solution)就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解, 他人可以利用这些公式计算各自的问题. 所谓的解析解是一种包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。

cat查看part-r-00000

最新发布

05-10

如果你想查看 Hadoop MapReduce 任务的输出文件 part-r-00000，可以使用以下命令： ``` hadoop fs -cat <output_dir>/part-r-00000 ``` 其中，`<output_dir>` 是你的输出目录。这个命令会将 part-r-00000 的内容...

“相关推荐”对你有帮助么？

非常没帮助

没帮助

一般

有帮助

非常有帮助

提交