为什么Non-Convex Optimization受到了越来越大的关注?

链接:https://www.zhihu.com/question/61034915

编辑:深度学习与计算机视觉

声明:仅做学术分享,侵删

作者:知乎用户

https://www.zhihu.com/question/61034915/answer/186419932

非凸优化本就该受到高度的关注,原因就如同上面“月光宝盒”说的一样,现实问题中凸问题测度为0,绝大多数优化问题都是非凸的。所以我觉得问题应该是,为什么非凸优化现在才开始受到越来越多的关注。凸优化与梯度方法紧密联系在一起,并不是因为梯度方法有多强,而是因为凸优化有多简单。其实优化的原理很简单,寻找关于最优解的信息,然后走向最优解。

凸优化之所以简单,那就是每一个局部点的(负)梯度方向都指向最优解,因此求导就知道该往哪个方向走。而非凸、尤其是有大量局部极值的非凸优化问题,梯度与最优解不再有什么关系,最多是指向局部极值,因此梯度方法在有许多局部极值的非凸问题上不再有效。上面有人讲了很多凸放松的例子,比如用L1范式代替L0、用nuclear norm代替rank等等,只有在很有限的范围下,这样的放松不会改变问题,更一般的情况,非凸问题进行凸放松,往往会改变原始问题。这是数学家最爱做的事,把不能解决的问题拉到能解决的范围。虽然优化变得好解了,然而离我们的目标可能更远了。

关于深度神经网络,似乎用梯度效果不错,是不是梯度方法就够了,可见最近ICML'17上的文章 “Failures of Gradient-Based Deep Learning“。所以,优化是学习最重要的部分吗?我觉得不是,学习可以看作“表示+评价+优化”,优化只是学习的实施工具,泛化才是最关键的问题,如何设计更好的数据表示、更好的模型结构、更好的目标,以取得更好的泛化能力,是更需要考虑的问题。然而,当我们只有梯度这一种实施工具的时候,表示得想着线性、模型要顾着简单、目标最好是凸的,削足适履,牺牲了设计机器学习系统的自由,失去了更多的可能性。非凸优化的研究,是否是在凸优化的基础上继续往前走就可以解决,凸优化是否是非凸优化的基础,我感觉不会。两者是性质差别巨大,会搭积木也不是会盖大楼的基础,不同的问题需要有不同的方法。顺便推销一下,其实有另一类优化方法——“非梯度优化”,更适合非凸优化问题。

可见 https://www.zhihu.com/question/38677354/answer/151325951 这一类方法已显示出很好可用性,但还有很多富有挑战的问题有待研究。

作者:知乎用户
https://www.zhihu.com/question/61034915/answer/184827099

非凸优化的发展很大程度上得益于凸优化的分析技巧的成熟,从算法设计,最优条件到最坏复杂度分析都离不开凸分析的技巧。事实上,很多凸分析大牛是非凸优化快速发展的推动者,比如最优一阶算法大师Nesterov。

具体来说,凸分析(注意:我这里强调的是对问题的分析,而不是设计具体的求解算法)是非凸分析的基础,凸优化里有许多学术上理解比较透彻完整的基本问题,从这里基本问题出发,去逼近和分析非凸问题(比如压缩感知这一类问题),甚至很多非凸问题本身就有隐藏的凸性(几何规划,约束较少的QCQP),利用非凸形式和隐藏凸性之间的联系可以挖掘很多深刻内容。这几年NIPS,ICML上的很多论文都是这个思路,比如分析压缩感知,矩阵填充,相位恢复,神经网络训练等问题的spurious local minima。其中的一个基本套路就是假设非凸问题具有Restricted Smoothness和Restricted Strong Convexity,然后证明所有的local minima都是Global optima。

从学习理论分析的工具角度来看,首先还是要掌握凸分析的基本工具,比如凸集的支撑平面和分离平面以及切锥和法锥,Fenchel的共轭分析,对偶原理。洛克菲勒的convex analysis是这方面的永恒经典。

学术上对非凸问题的理解还很浅薄,甚至连最优条件都无法给出或者无法有效验证。特别是实际中局部优化算法在大多数典型案例上优秀的表现与理论上非凸问题的NP-Hardness性质之间的差异,让人百思不得其解。如果有生之年能见证有人给出这个问题的有效的解答,就不枉在这个时代走一遭了。

作者:小熊熊
https://www.zhihu.com/question/61034915/answer/184550783

凸函数有个性质是所有局部最优解都是全局最优解,所有最优解都连成一片,nn每一层的hidden节点都是等价的,可互换的,而这些可互换的模型对应的参数显然不能连成一片,还有可以从凸函数的二阶条件来证明,但是想证明nn 的Hessian不是半正定很难,反过来说如果nn 的hessian为正定,就不需要开发gauss-newton等二阶算法了。

凸优化的理论基本成型了,那这么多搞optimization的博士要等着毕业,不搞非凸优化还能干啥?

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

abd656f97a0b9f51e21ed2fd1418b9fd.png

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值