Twenty Lectures on Algorithmic Game Theory 算法博弈论二十讲 Lecture 3 Myerson’s Lemma (上）

菜菜菜菜菜菜苟

已于 2024-08-17 21:39:04 修改

阅读量465

点赞数 17

分类专栏：算法博弈论二十讲文章标签：算法

于 2024-08-17 21:32:02 首次发布

本文链接：https://blog.csdn.net/weixin_44251455/article/details/141287199

版权

算法博弈论二十讲专栏收录该内容

8 篇文章 1 订阅

订阅专栏

Twenty Lectures on Algorithmic Game Theory 算法博弈论二十讲 Lecture 3 Myerson’s Lemma (上）

过去的15年里，计算机科学与经济学之间进行了活跃的互动，催生了算法博弈论这一新兴领域。许多现代计算机科学中的核心问题，从大规模网络中的资源分配到在线广告，都涉及多个自利方之间的相互作用。经济学和博弈论提供了许多有用的模型和定义来思考这些问题。而且，思想的交流也是双向的，计算机科学中的概念在经济学中的重要性也在不断增加。
本书源于作者在斯坦福大学开设的算法博弈论课程，旨在为学生和其他新入门者提供一个快速而易懂的介绍，涵盖了该领域中许多最重要的概念。书中还包括在线广告、无线频谱拍卖、肾脏交换和网络管理的案例研究。
蒂姆·拉夫加登（Tim Roughgarden）是斯坦福大学计算机科学的副教授。由于他在算法博弈论方面的研究，他获得了ACM Grace Murray Hopper奖、科学与工程师总统早期职业奖（PECASE）、卡莱奖（Kalai Prize）以及社会选择与福利奖、数学规划协会的塔克奖（Tucker Prize）和EATCS-SIGACT的哥德尔奖（Gödel Prize）。他撰写了《自私路由与无序代价》（2005）一书，并合编了《算法博弈论》（2007）一书。

Lecture 3 Myerson’s Lemma

上一节课提倡了一种拍卖设计的两步法，旨在实现支配策略激励兼容性 (DSIC)、福利最大化和计算效率（第 2.6.4 节）。第一步假设竞标者如实出价，并确定如何将物品分配给竞标者以最大化社会福利。例如，在赞助搜索拍卖中，这一步是通过将第 $i$ 高的竞标者分配到第 $i$ 好的插槽来实现的。第二步推导出适当的销售价格，使得如实出价成为支配策略。本节课介绍并证明了迈尔森引理，这是一种强大且通用的工具，用于实现第二步。该引理适用于赞助搜索拍卖作为特例，第 4 和第 5 讲将进一步探讨其应用。

第 3.1 节介绍了单参数环境，这是对第 2 讲中提出的机制设计问题的方便推广。第 3.2 节将密封投标拍卖的三个步骤（第 2.2 节）重新表述为分配规则和支付规则。第 3.3 节定义了分配规则的两个属性：可实施性和单调性，并阐述和解释了迈尔森引理。第 3.4 节提供了迈尔森引理的证明概述；初次阅读时可以略过这一部分。迈尔森引理包括 DSIC 机制中支付的公式，第 3.5 节将这一公式应用于赞助搜索拍卖。

3.1 Single-Parameter Environments

在单参数环境中，表述迈尔森引理的抽象水平较高。这种环境包含 $n$ 个代理人。每个代理人 $i$ 都有一个私有的非负估值 $v_i$ ，表示她获取“每单位物品”的价值。最后，存在一个可行集合 $\boldsymbol X$ ，其中每个元素都是一个非负的 $n$ 维向量 $(x_1, x_2, \dots, x_n)$ ，其中 $x_i$ 表示分配给代理人 $i$ 的“物品数量”。

示例 3.1 （单项拍卖） 在单项拍卖中（第 2.1 节）， $X$ 是由最多有一个 1 的 0-1 向量组成的集合，即 $\sum_{i=1}^n x_i \leq 1$ 。

示例 3.2 （k-单位拍卖） 对于有 k 个相同物品且每个竞标者最多只能得到一个物品的情况（练习 2.3），可行集合是满足 $\sum_{i=1}^n x_i \leq k$ 的 0-1 向量的集合。

示例 3.3 （赞助搜索拍卖） 在赞助搜索拍卖中（第 2.6 节）， $X$ 是对应竞标者与插槽分配的 n 维向量集合，其中每个插槽最多分配给一个竞标者，每个竞标者最多分配到一个插槽。如果竞标者 $i$ 被分配到插槽 $j$ ，那么分量 $x_i$ 等于她的插槽的点击率 $\alpha_j$ 。

示例 3.4 （公共项目） 决定是否建造所有人都可以使用的公共项目（如新桥梁）可以通过集合 $\{(0, 0, \dots, 0), (1, 1, \dots, 1)\}$ 来建模。

示例 3.4 表明单参数环境足够广泛，能够涵盖不同于拍卖的应用。在这种抽象层次上，我们使用“代理人”而非“竞标者”这个术语。我们有时使用“报告”一词来代替“出价”。机制是一种在代理人拥有私有信息（如估值）时做出决策的通用程序，而拍卖则是一种专门用于商品和货币交换的机制。参见表 3.1。

表 3.1：拍卖和机制中术语的对应关系。拍卖是机制的一个特殊情况，专门用于商品和货币的交换。

auction	mechanism
bidder	agent
bid	report
valuation	valuation

3.2 Allocation and Payment Rules

回想一下，在密封式拍卖中需要做出两个选择：谁获胜以及谁支付多少。这两个决策分别通过分配规则和支付规则形式化。以下是这类拍卖的三个步骤：

从所有代理人处收集出价 $\mathbf{b} = (b_1, \dots, b_n)$ 。向量 $\mathbf{b}$ 被称为出价向量或出价配置。
[分配规则] 选择一个可行分配 $\mathbf{x}(\mathbf{b}) \in X \subseteq \mathbb{R}^{n}$ ，该分配是出价的函数。
[支付规则] 选择支付 $\mathbf{p}(\mathbf{b}) \in \mathbb{R}^{n}$ ，该支付也是出价的函数。

这种类型的程序被称为直接揭示机制，因为在第一步中代理人被要求直接揭示他们的私人估值。间接机制的一个例子是迭代上升拍卖（参见练习 2.7）。

在我们的准线性效用模型中，对于具有分配规则 $\mathbf{x}$ 和支付规则 $\mathbf{p}$ 的机制，代理人 $i$ 的效用为

$u_i(\mathbf{b}) = v_i \cdot x_i(\mathbf{b}) - p_i(\mathbf{b})$

当出价配置为 $\mathbf{b}$ 时。

我们关注满足以下条件的支付规则：

$p_i(\mathbf{b}) \in [0, b_i \cdot x_i(\mathbf{b})]$

对每个代理人 $i$ 和出价配置 $\mathbf{b}$ 来说，约束条件 $p_i(\mathbf{b}) \geq 0$ 等同于禁止卖方向代理人支付费用。而约束条件 $p_i(\mathbf{b}) \leq b_i \cdot x_i(\mathbf{b})$ 则确保了一个诚实的代理人能够获得非负效用（你明白为什么吗？）

3.3 Statement of Myerson’s Lemma

接下来是两个重要的定义，都是关于分配规则的性质。

定义 3.5 （可实现的分配规则） 对于单参数环境，如果存在一个支付规则 $\mathbf{p}$ ，使得直接揭示机制 $(\mathbf{x}, \mathbf{p})$ 是 DSIC（激励相容且诚实）的，那么分配规则 $\mathbf{x}$ 就是可实现的。

也就是说，可实现的分配规则是那些可以扩展为 DSIC 机制的规则。等价地，DSIC 机制在其分配规则上的投影就是可实现规则的集合。如果我们的目标是设计一个 DSIC 机制，那么我们必须局限于可实现的分配规则——它们构成了我们的“设计空间”。在这种术语下，我们可以重新表述第二讲结束时留下的问题：在赞助搜索拍卖中，福利最大化的分配规则——将第 $i$ 高的竞标者分配给第 $i$ 最好的插槽——是否是可实现的？

例如，考虑单项拍卖（示例 3.1）。将物品授予最高竞标者的分配规则是否是可实现的？当然——我们已经构建了一个支付规则，即第二价格规则，使其成为 DSIC 机制。那么，将物品授予第二高竞标者的分配规则呢？在这里，答案并不明确：我们尚未看到扩展它为 DSIC 机制的支付规则，但要说没有任何支付规则可能有效，似乎也有点困难。

定义 3.6 （单调分配规则） 对于单参数环境，如果对于每个代理人 $i$ 和其他代理人的出价 $\mathbf{b}_{-i}$ 而言，分配给 $i$ 的 $x_i(z, \mathbf{b}_{-i})$ 随她的出价 $z$ 非递减，那么分配规则 $\mathbf{x}$ 就是单调的。

也就是说，在单调分配规则中，出价越高只会让你获得更多的“物品”。

例如，将物品授予最高竞标者的单项拍卖分配规则是单调的：如果你是获胜者，并且你提高了出价（保持其他出价不变），你将继续获胜。相比之下，将物品授予第二高竞标者的分配规则则是非单调的：如果你是获胜者并且大幅提高出价，你可能会输掉。

在赞助搜索拍卖中的福利最大化分配规则（示例 3.3）中，将第 $i$ 高的竞标者分配给第 $i$ 最好的插槽，这一规则是单调的。当竞标者提高她的出价时，她在排序中的位置只会提升，这只会增加她被分配到的插槽的点击率。

我们将迈尔森引理分为三个部分进行表述，每一部分在概念上都很有趣，并且在后续应用中很有用。

定理 3.7 （迈尔森引理） 固定一个单参数环境。

(a) 一个分配规则 $\mathbf{x}$ 是可实现的，当且仅当它是单调的。

(b) 如果 $\mathbf{x}$ 是单调的，那么存在唯一的支付规则 $\mathbf{p}$ ，使得直接揭示机制 $(\mathbf{x}, \mathbf{p})$ 是 DSIC 的，并且当 $b_i = 0$ 时， $p_i(\mathbf{b}) = 0$ 。

迈尔森引理是我们构建大多数机制设计理论的基础。第(a)部分表明，定义 3.5 和 3.6 描述的实际上是完全相同的分配规则类。这种等价性非常强大：定义 3.5 描述了我们的设计目标，但在操作和验证上比较复杂，而定义 3.6 则更加“可操作”。通常，检查一个分配规则是否是单调的并不困难。第(b)部分表明，当一个分配规则是可实现的时，在如何分配支付以实现 DSIC 属性上没有歧义——只有一种方法可以做到这一点。此外，这个支付规则有一个相对简单且明确的公式（见第©部分），我们将在第 3.5 节中将这一性质应用于赞助搜索拍卖，并在第 5-6 讲中应用于收益最大化的拍卖设计。