在未知社交网络中最大化影响力（论文翻译）

最新推荐文章于 2022-09-09 16:46:56 发布

孙溟

最新推荐文章于 2022-09-09 16:46:56 发布

阅读量1k

点赞数 1

分类专栏：论文翻译文章标签：社交网络影响力最大化

论文翻译专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在未知社交网络中最大化影响力

Maximizing Inflence in an Unknown Social Network.pdf下载

摘要

在许多影响力最大化的真实应用中，某种社交结构的人群中的从业者的干扰力最初是未知的。这就构成了一个多用户系统的挑战，即在用户之间如何连接尚不确定的情况下采取行动。我们通过引入探索性影响力最大化来公式化这个问题。其中算法通过查询各个网络节点来了解它们的链接。目标是用非常少的查询来定位几乎是全局最优的相关种子集。我们证明这个问题对一般图标来说是难以处理的。然而，现实世界网络通常具有社区结构，其中节点布置在密集连接的子组中。我们提出了ARISEN算法，该算法利用社区结构来寻找有影响力的种子集。在无家可归的青年，印度的村民和其他人的现实世界网络上的实验表明了ARISEN强大的实证表现。为了正式演示ARISEN如何利用社区结构，我们证明了ARISEN在随机块模型中绘制的图的近似保证。

1. 介绍

       在从健康到国际发展的背景下，从业者利用其目标人群的社交网络来传播信息和改变行为。人口成员之间的社交互动形成了一个多用户体系；挑战是确定最有影响力的用户。虽然以前的工作为这种影响最大化问题提供了计算上有效的算法(Chen,Wang, andWang 2010; Tang, Xiao, and Shi 2014; Yadav et al. 2016)，但这项工作假设社交网络明确地作为输入。然而，在许多现实领域中，网络最初并不为人所知，必须通过繁琐的现场观察来收集。例如，收集弱势群体（如无家可归青年）的网络数据，虽然对卫生干预至关重要，但需要花费大量时间来收集实地观察（Rice等人，2012年）。当技术获取有限时，例如发展中国家或弱势群体，社交媒体数据通常无法获得。即使有这样的数据，它通常也包括许多弱连接，这些弱连接在传播影响方面无效（Bond et al. 2012)。例如，一个人可能有几百个他们几乎不了解的Facebook朋友。原则上，可以通过调查重建整个网络，然后应用现有的影响最大化算法。然而，详尽的调查是非常劳动密集型的，通常被认为是不切实际的（Valente和Pumpuang，2007）。为了使影响最大化与许多现实问题相关，它必须应对有限的网络信息，而不仅仅是有限的计算。
       主要的信息限制是可以调查以探索网络的节点数量。**一个关键的问题是：我们如何通过少量的查询去找到具有影响力的节点？**我们将此问题形式化为探索性影响最大化并寻求合乎正道的算法解决方案，即，产生少量查询并返回一组种子节点的算法，这些种子节点与全局最优种子集大致相同。现有的现场工作方式是使用启发式方法，例如抽取一定比例的节点并要求他们提名有影响力的人（Valente和Pumpuang，2007）。据我们所知，以前的工作没有直接从算法的角度解决这个问题（参见第3节）。
       我们表明，对于一般图形，任何探索影响最大化的算法都可能任意执行，除非它检查几乎整个网络。然而，现实世界网络通常具有强大的社区结构，其中节点形成紧密连接的子组，这些子组仅与网络的其余部分弱连接（Leskovec等人，2009）。所以，影响力几乎是在本地传播的。社区结构已被用于开发计算上有效的影响最大化算法（Wang等人2010; Chen等人2014）。在这里，我们使用它来设计高信息效率的算法。我们做了4点贡献。首先，我们引入探索性影响最大化，并表明它对于一般图形是难以处理的。其次，我们提出了ARISEN算法，该算法利用社区结构来寻找有影响的节点。第三，我们展示ARISEN在一系列现实世界社交网络上拥有强大的实证表现。第四，我们在随机块模型（SBM）（Fienberg和Wasserman 1981）中绘制的图上正式分析了ARISEN，这是一个广泛研究的社区结构模型。我们通过仅查询网络大小中的多对数节点来证明整个网络是已知的，它近似于最佳影响。

2. 探索性影响力最大化

       作为一个启发性的例子，考虑一个希望传播艾滋病预防信息的无家可归青年庇护所（Rice et al.2012）。避难所将试图选择最有影响力的同辈领导者来传播信息，但青少年的社交网络最初并不为人所知。构建网络需要进行费力的调查（Rice et al.2012）。我们的动机是通过查询少数青年来减轻这种努力。此类查询所需的时间远远少于同辈领导者一天的培训时间。我们现在正式化这个问题。
              影响力最大化：影响最大化问题（Kempe，Kleinberg和Tardos 2003）从图G =（V，E）开始，其中|V| = n和|E| = m。我们假设G是无向的; 社会联系通常是互惠的（Squartini et al.2012）。某个影响者选择K个种子节点，旨在最大化所得影响级联的预期大小。我们假设影响根据独立级联模型（ICM）传播，ICM是文献中最普遍的模型。最初，除种子外，所有节点都处于非活动状态。当节点激活时，它以概率q独立地激活其每个邻接点。对于所有边缘，q通常被认为是相同的（Chen，Wang和Wang，2010; Kempe，Kleinberg和Tardos，2003; Yadav等，2016）。设f(S)表示种子集S⊆V的预期激活节点数。目的是计算argmax_|S|≤Kf(S)。
              本地信息：边集E最初不是已知的。相反，该算法使用本地操作探索图的部分。我们使用流行的“Jump-Crawl”模型（Brautbar和Kearns 2010），其中算法可以跳转到均匀随机节点，或者沿着已经调查过的节点到其邻接点之一的边爬行。当访问到时，该节点会显示它所有的边。我们说算法的查询成本是使用任一操作访问的节点总数。我们的目标是找到有影响的节点，其查询成本远小于n，即节点总数。
              随机块模型：在我们的正式分析中，我们假设图表来自SBM。SBM起源于社会学（Fienberg和Wasserman，1981），最近在计算机科学和统计学方面进行了深入研究（参见例如（Abbe和Sandon 2015; Krzakala等人2013; Mossel，Neeman和Sly 2015））。在SBM中，网络被划分为不相交的社区C₁ … C_L。每个社区内边缘以概率p_w独立存在，并且每个社区间边缘以概率p_b独立存在。回想一下，Erdős–Rényi随机图G（n，p)，它是有n个节点，并且每个边缘以概率p独立存在的图。在SBM中，社区C_i在内部绘制为G(|C_i|p_w)与其他社区的其他随机边缘。虽然SBM是一个简化的模型，但我们的实验结果表明，ARISEN在真实世界的图表上也表现良好。ARISEN将参数n，p_w和p_b作为输入，但没有给出关于网络实现抽取的任何先验信息。可以合理地假设模型参数是已知的，因为它们可以使用来自相似人群的现有网络数据来估计（在我们的实验中，我们证明了这种方法很有效）。例如，在艾滋病预防中，无家可归的青年社交网络已被证明具有社区结构，一些研究已经收集了推断p_w和p_b的网络（Yadav等，2016; Rice等，2012）。
              我们的理论分析将使用p_w和p_b的特定值范围。正如所定义的那样，SBM包含各种可能的拓扑结构，具体取决于参数p_w和p_b的设置方式。图1给出了一些例子，从二分图到Erdős–Rényi图。我们打算建模的社区结构图如图1(a)所示。我们稍后定义了一个产生这种网络的参数范围。
Figure 1:Example SBM networks
              目标：我们现在正式确定我们的算法将优化的目标。我们将与全局最优解决方案进行比较，即如果知道整个网络，则表现最佳。当实现的边集合为E时，让f_E(S)给出受种子集S影响的预期节点数量。设A(E)为（可能是随机的）种子集，其中包含给定边集E的算法选择。设OPT为种子K节点的全局最优解的期望值。我们的目的是证明对于某些近似比α，E [f_E(A(E))]≥αOPT，其中期望超过图中的随机性，算法的选择和ICM。
              强度结果：我们寻找查询成本随n缓慢增长的算法。以下表明没有严格次线性查询成本的算法获得一般图的常数近似因子。符号o(1)指的是当n→∞时接近0的项。
       定理1：存在某一族的图，对于某些查询时间为O(n^1-ε)，ε>0的算法，具有不高于o(1)的近似比率。
       证明. 考虑一族图，它们包含一个含有logn节点的团和n-logn个孤立的节点。让q=1且K=1。如果在团中选取一个节点，该算法会获得logn的影响力，否则的话会得到1的影响力。从团中取样的概率几乎是1-(1-logn/n)^{O(n^1-ε)}≤1-e^{-logn/O(n^ε)}(1-log²n/n)^{O(n^ε)}=o(1)。因此，它的期望影响力是o(1)logn+1，当OPT是logn时，给定的近似比率是(o(1)logn+1)/logn=o(1)。

3.相关工作

4. ARISEN算法

现在我们介绍我们的主要贡献，ARISEN算法(Approximating with Random walks to Influence aSocially Explored Network)。图2显示了一个示例，稍后将详细说明。ARISEN（算法1）背后的想法是从G中抽T个随机节点{v₁ … v_T}，并通过随机游走R步（第1-3行）探索每个v_i周围的小子图H_i。R和T都是输入；第6节给出了获得理论保证的设置。直观地，T应该大于K（种子的数量），因此我们可以确保对每个最大的K社区进行抽样。R与算法2讨论。子图H_i用于构造权重向量w，其中w_i给出与v_i相关的权重（第5-6行）。然后，算法从{v₁ … v_T}中以与w（第7行）成比例的概率独立地对每个种子进行采样。
Figure 2: Example run of ARISEN with K = 3
挑战是构建权重w，平衡两个相对的目标。首先，我们经常喜欢将种子节点分散到整个网络中。例如，如果每个社区的规模相同，我们希望为不同的K个社区提供种子。其次，我们还希望在大型社区中放置更多种子。例如，如果一个社区有10,000个节点而另外一个节点只有100个节点，那么我们应该为更大的社区播种。ARISEN使用以下成分（Algorithms1-2）进行权衡。首先，INITIALIZEWEIGHTS使用每个v_i周围的随机游走来估计v_i所在社区的大小。根据这些估计，它构建了一个w，在期望中，给最大的K个社区播种。其次，REFINEWEIGHTS测试一个增加大型社区的权重的w’是否会增加预期的影响力。主要的新颖性是使用纯粹的本地信息来执行这些步骤，因为我们通常无法分辨哪个v_i在同一社区中。
Algorithm 3 ARISEN(R, T,B)
Algorithm 1 InitializeWeights(H,K,R, T,B)
Algorithm 2 RefineWeights(w,H)