基于样本的优化

最新推荐文章于 2022-02-07 12:00:00 发布

唐名威

最新推荐文章于 2022-02-07 12:00:00 发布

阅读量382

点赞数

文章标签：算法大数据 python 机器学习人工智能

本文链接：https://blog.csdn.net/weixin_45585364/article/details/121219669

版权

本文探讨了基于样本的优化问题，指出在样本优化模型（OPS）下，某些问题存在不可近似性结果，例如最大覆盖问题。然而，通过引入结构化样本优化（OPSS）模型，可以克服这一难题，提出针对最大覆盖问题和影响力最大化问题的常数近似算法。文章还讨论了未来研究方向，包括降低查询复杂度、研究更多目标函数的结构化样本、绕开OPS模型的不可近似性结果，以及探索从样本中优化凸函数的可能。

摘要由CSDN通过智能技术生成

点击上方蓝字关注我们

基于样本的优化

张智杰^1,2, 孙晓明^1,2, 张家琳^1,2, 陈卫³

1 中国科学院计算技术研究所，北京 100086

2 中国科学院大学，北京 100049

3 微软亚洲研究院，北京 100080

摘要：基于样本的优化研究的是如何通过用于学习目标函数的样本数据直接优化目标函数。首先介绍这一问题的数学模型——样本优化模型，以及这个模型下的不可近似性结果；然后介绍若干方法和样本优化模型的变种，以绕过这个模型下的不可近似性结果，使得优化成为可能；接着着重介绍其中一个变种——结构化样本优化模型，并详细阐述该模型下的最大覆盖问题和影响力最大化问题的优化算法；最后总结全文，并展望这一问题的未来研究方向。

关键词：基于样本的优化 ; 数据驱动的优化 ; 结构化样本 ; 最大覆盖问题 ; 影响力最大化问题

论文引用格式：

张智杰, 孙晓明, 张家琳, 等. 基于样本的优化[J]. 大数据, 2021, 7(5): 100-110.

ZHANG Z J, SUN X M, ZHANG J L, et al. Optimization from samples[J]. Big Data Research, 2021, 7(5): 100-110.

1 引言

为了解决实际生活中遇到的统筹优化问题，人们通常要建立一个问题模型，并确定模型的参数和优化目标函数，然后设计算法进行求解。然而，在大数据时代，许多应用场景无法提供足够的信息来确定模型参数和目标函数。人们只能通过观察到的历史样本数据来获取模型的信息，并进行优化。在这类场景下，人们通常使用机器学习的方法进行处理：首先近似地学习一个替代的目标函数，然后优化这个替代的函数。尽管这个方法在实际应用中获得了巨大的成功，但是在很多实际问题中，这个方法缺乏理论上的保证。事实上，它可能存在如下两个问题：① 即使针对原函数的优化问题是可求解或者可近似求解的，但是针对替代函数的优化问题也可能是不可近似的，这是因为替代函数可能丢失了一些原函数所具有的良好性质（如次模性）；② 即使替代函数是可近似的，而且从整体上看和原函数很接近，但是它的最优解相较于原函数的最优解也可能是一个很差的近似。这些担忧自然地引出了如下问题：人们是否真的能从一系列样本数据中求解目标函数的优化问题？

1.1 样本优化模型

组合优化问题通常具有如下形式：，其中，目标函数是一个定义在集合N的幂集合2^N上的集合函数，约束。传统上，人们假定存在一个神谕（黑箱算法）O_f来访问目标函数f。将给定集合S⊆N 作为输入，O_f会返回函数值f(S)。人们使用查询复杂度（即算法查询Of的次数）来衡量算法的效率。这样的计算模型被称为查询模型。

为了回答基于样本的组合优化是否可能的问题，Balkanski E等人定义了另一种计算模型——样本优化（optimization from samples，OPS）模型。

定义1（OPS模型）给定参数α∈(0,1]，如果存在算法A（不一定是多项式时间的），给定参数δ∈(0,1)并将样本集作为输入，其中，S_i独立同分布于，算法A返回，并满足

则称函数类在分布下对于约束是α-可优化的。其中，α被称为近似比，表示算法的解与最优解的比值。算法使用的样本数t被称为算法的采样复杂度。显然，样本分布会显著影响函数类在OPS模型下的可优化性。例如，当总是返回空集作为样本时，不可能对问题得到任何有意义的近似比。因此，人们转而希望在某些“合理的”样本分布下，优化是可能的。此外，对于在查询模型下具有常数近似比的问题，人们通常希望它在OPS模型下也具有常数近似比。对于这类问题，如果存在分布，当将给定多项式数量的独立同分布于的样本作为输入时，问题存在常数近似算法，则称它们（在OPS模型下）是可优化的；反之，则称它们是不可优化的

样本优化模型在目标函数可优化且可学习的情况下最具研究价值。Balcan M F等人首先定义了集合函数的PMAC （probably mostly approximately correct learnability）-可学习性。

定义2（PMAC-可学习性）对于函数类F 和参数α∈(0,1)，如果给定参数并将样本集作为输入，其中，S_i独立同分布于，，存在输出，并满足

如果在每个分布上都是α-PMAC-可学习的，则称在分布上是α-PMAC-可学习的。

由定义2可知，函数类是α-PMAC可学习的意味着在大多数输入集合上（相对于分布而言），存在某种算法学习到的函数值与真实的函数值很接近。并且，人们通常要求这对于任意的分布均成立。而函数可优化性的定义只要求存在分布使之成立即可。

最后，覆盖函数和影响力函数是这一领域的重要研究对象，下面介绍它们的定义。给定二部图G=(L,R,E)，其中，L和R分别表示左右两边的点集，E表示点之间的边集。覆盖函数定义为集合S⊆L的邻居的个数，即。而最大覆盖问题要求选取最多k个左边的节点，并最大化它们覆盖的邻居数。换言之，它要求在基数约束下最大化一个覆盖函数，即。

影响力函数是覆盖函数在一般有向图上的推广。它被定义在社交网络（有向图）上，其中，V表示点集，E表示边集，P表示概率向量，每条边(u,v)∈E具有概率puv∈[0,1]。每个节点存在激活和未激活两种状态。给定t=0的初始激活节点S₀（被称为种子集合），其他节点以如下方式被激活：在时刻t=1,2,3,…，首先令；接着，对于每个节点，令表示v的入邻居，每个节点