故事的开始起源于一个雷骁教授作为一个资深游戏玩家在打游戏的过程中,对“开箱氪金”这一问题产生了思考,他对开箱氪金这一问题进行建模,于是产生了“电子游戏中的收益管理”中的第一篇论文。
一、游戏战利品箱(loot box)的内容和定价优化
原文链接:Loot Box Pricing and Design | Management Science (informs.org)
(https://pubsonline.informs.org/doi/abs/10.1287/mnsc.2020.3748)
论文解读: 我在哥大研究网游开箱氪金建模 (https://zhuanlan.zhihu.com/p/75057124)
“开箱氪金”是电子游戏中非常常见的盈利形式。游戏中的战利品箱(loot box)中包含随机分配的虚拟道具,玩家只有在购买后才能知道抽到了什么,有可能是“欧皇”,也有可能成为“非酋”。
本研究从游戏公司收益最大化的角度考虑如何优化战利品箱的内容和定价,并分析了这种销售策略下的消费者剩余。本研究共考虑了两类战利品箱策略,一种会抽到重复物品(传统战利品箱策略),另一种是每次都抽到不同物品(唯一战利品箱策略)。令 v i v_i vi表示顾客对物品 i ∈ [ N ] i\in[N] i∈[N]的估值, N N N为物品的总数量, S t S_t St表示顾客在 t t t时刻已经拥有的物品集合, p p p为开一次箱的价格。以下为顾客在两种战利品箱策略下的效用:
(Traditional)
U
t
=
∑
i
∈
[
N
]
∖
S
t
v
i
N
−
p
,
(Unique)
U
t
=
∑
i
∈
[
N
]
∖
S
t
v
i
N
−
∣
S
t
∣
−
p
.
\text{(Traditional)}\quad U_t=\frac{\sum_{i\in[N]\setminus S_t}v_i}N-p,\quad\text{(Unique)}\quad U_t=\frac{\sum_{i\in[N]\setminus S_t}v_i}{N-|S_t|}-p.
(Traditional)Ut=N∑i∈[N]∖Stvi−p,(Unique)Ut=N−∣St∣∑i∈[N]∖Stvi−p.
随后本研究进行了战利品箱最优策略的分析,并基于一些实际情况进行拓展,如游戏公司虚报开箱概率等。
主要研究结果:
- 从游戏公司收益最大化方面来看,当虚拟物品数量较大时,唯一战利品箱策略是渐进最优的,传统战利品箱策略的收益只占最优收益的36.7%;而从消费者剩余方面来看,传统战利品箱策略下的消费者剩余为正值,而唯一战利品箱策略使得消费者剩余为0。
- 对于游戏战利品箱内容优化而言,无论是传统战利品箱还是唯一战利品箱,物品均匀分布都是渐进最优的。
- 当游戏公司故意虚报开箱概率时,其收入可能会显著增加,因此相关部门需要对其进行严格监管。
- 即使游戏公司允许玩家回收不需要的物品,消费者剩余最多只能增加1.4%。
这篇文章的工作发表在运筹优化领域的顶级期刊 Management Science上, 并且参与了联邦贸易委员会的公开研讨会,取得了一定的业界影响力,也为雷骁争取到了在动视暴雪实习的机会。三个月的暑期实习让他对电子游戏中的收益管理有了更深入的了解, 能够更好的站在游戏公司的角度思考问题。
具体来说,游戏产业的中提高利润和提高用户参与度是两个纬度的问题,前者本质上是一个收益管理问题,在运筹优化领域有很多相关的研究,而与用户参与度有关的研究很少。 以此为突破口,他从提高游戏玩家的参与度出发,进行了下面的相关研究。
二、最大化玩家留存的匹配策略设计
原文链接: Matchmaking Strategies for Maximizing Player Engagement in Video Games | SSRN
(https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3928966)
论文解读:游戏体验极差?为了优化排位匹配系统,我用动态规划建模写了篇论文…
(https://zhuanlan.zhihu.com/p/670114687)
在PVP(Player VS Player)游戏中,玩家的留存率至关重要。不同的玩家的游戏技能水平不同,这会直接影响竞技比赛的输赢结果,而输赢结果影响了他们是否愿意继续进行下一轮游戏。那么,如何在一个PVP游戏中通过优化玩家动态匹配策略来最大化玩家的参与度,防止玩家流失?
本研究提出了一个无限线性规划来解决这个问题,并主要关注其中的一个典型情况:只存在两种技能水平的玩家(高水平玩家/低水平玩家),玩家在经历连败时(即连续失败次数大于等于2)就会流失。
本研究使用动态规划进行建模,令
s
t
=
(
s
2
w
t
,
s
2
l
t
,
s
1
w
t
,
s
1
l
t
)
\textbf{s}^t=(s_{2w}^t,s_{2l}^t,s_{1w}^t,s_{1l}^t)
st=(s2wt,s2lt,s1wt,s1lt)表示系统的玩家人数状态,分别为上一把赢了的高水平玩家人数、上一把输了的高水平玩家人数、上一把赢了的低水平玩家人数和上一把输了的低水平玩家人数。令
f
i
,
j
t
f_{i,j}^t
fi,jt表示第
i
i
i类玩家和第
j
j
j类玩家的对局数,由于每个玩家都必须有一个对手,于是有如下约束条件,表示某类玩家的对局总量等于某类玩家的总数,其中
P
:
=
{
2
w
,
2
l
,
1
w
,
1
l
}
\mathcal{P}:=\{2w,2l,1w,1l\}
P:={2w,2l,1w,1l}。
∑
j
∈
P
f
i
,
j
t
=
s
i
t
,
∀
i
∈
P
,
∑
i
∈
P
f
i
,
j
t
=
s
j
t
,
∀
j
∈
P
,
f
i
,
j
t
=
f
j
,
i
t
,
∀
i
≠
j
,
i
,
j
∈
P
,
f
i
,
j
t
≥
0
,
∀
i
≠
j
,
i
,
j
∈
P
.
\begin{aligned}\sum_{j\in\mathcal{P}}f_{i,j}^{t}& =s_i^t,\forall i\in\mathcal{P}, \\\sum_{i\in\mathcal{P}}f_{i,j}^t& =s_j^t,\forall j\in\mathcal{P}, \\f_{i,j}^t& =f_{j,i}^t,\forall i\neq j,i,j\in\mathcal{P}, \\f_{i,j}^{t}& \begin{aligned}&\geq0,\forall i\neq j,i,j\in\mathcal{P}.\end{aligned} \end{aligned}
j∈P∑fi,jti∈P∑fi,jtfi,jtfi,jt=sit,∀i∈P,=sjt,∀j∈P,=fj,it,∀i=j,i,j∈P,≥0,∀i=j,i,j∈P.
基于高水平玩家一定会赢低水平玩家、同等水平玩家获胜概率相等的假设,可以计算下一时期各类玩家人数:
s
2
w
t
+
1
=
1
2
(
f
2
w
,
2
w
t
+
f
2
w
,
2
ℓ
t
+
f
2
ℓ
,
2
w
t
+
f
2
ℓ
,
2
ℓ
t
)
+
f
2
w
,
1
w
t
+
f
2
w
,
1
ℓ
t
+
f
2
ℓ
,
1
w
t
+
f
2
ℓ
,
1
ℓ
t
,
s
2
ℓ
t
+
1
=
1
2
(
f
2
w
,
2
w
t
+
f
2
w
,
2
ℓ
t
)
,
s
1
w
t
+
1
=
1
2
(
f
1
w
,
1
w
t
+
f
1
w
,
1
ℓ
t
+
f
1
ℓ
,
1
w
t
+
f
1
ℓ
,
1
ℓ
t
)
,
s
1
ℓ
t
+
1
=
1
2
(
f
1
w
,
1
w
t
+
f
1
w
,
1
ℓ
t
)
+
f
1
w
,
2
w
t
+
f
1
w
,
2
ℓ
t
.
\begin{aligned} &s_{2w}^{t+1} =\frac12(f_{2w,2w}^t+f_{2w,2\ell}^t+f_{2\ell,2w}^t+f_{2\ell,2\ell}^t)+f_{2w,1w}^t+f_{2w,1\ell}^t+f_{2\ell,1w}^t+f_{2\ell,1\ell}^t, \\ &s_{2\ell}^{t+1} =\frac12(f_{2\boldsymbol{w},2\boldsymbol{w}}^t+f_{2\boldsymbol{w},2\ell}^t), \\ &s_{1\boldsymbol{w}}^{t+1} =\frac12(f_{1w,1w}^t+f_{1w,1\ell}^t+f_{1\ell,1w}^t+f_{1\ell,1\ell}^t), \\ &s_{1\ell}^{t+1} =\frac12(f_{1w,1w}^t+f_{1w,1\ell}^t)+f_{1w,2w}^t+f_{1w,2\ell}^t. \end{aligned}
s2wt+1=21(f2w,2wt+f2w,2ℓt+f2ℓ,2wt+f2ℓ,2ℓt)+f2w,1wt+f2w,1ℓt+f2ℓ,1wt+f2ℓ,1ℓt,s2ℓt+1=21(f2w,2wt+f2w,2ℓt),s1wt+1=21(f1w,1wt+f1w,1ℓt+f1ℓ,1wt+f1ℓ,1ℓt),s1ℓt+1=21(f1w,1wt+f1w,1ℓt)+f1w,2wt+f1w,2ℓt.
模型的目标是最大化玩家留存人数:
V
∗
(
s
0
)
=
max
{
f
i
,
j
t
}
t
=
0
∞
,
{
s
i
t
}
t
=
1
∞
∑
t
=
1
∞
∑
i
∈
P
s
i
t
V^*(\mathrm{s}^0)=\max_{\{f_{i,j}^t\}{t=0}^\infty,\{s_i^t\}{t=1}^\infty}\sum_{t=1}^\infty\sum_{i\in\mathcal{P}}s_i^t
V∗(s0)={fi,jt}t=0∞,{sit}t=1∞maxt=1∑∞i∈P∑sit
本研究给出了两连败即退出的优化模型的最优匹配策略的解析解,并在此基础上引入AI机器人玩家和充值变强(pay to win)系统进行扩展,主要研究结论如下。
主要研究结果:
- 最优匹配策略是尽量匹配没有流失风险的低水平玩家和已经经历了一次失败的高技能水平玩家。若低水平玩家过多,有流失风险的低水平玩家也会匹配到高水平玩家。
- 与传统匹配策略对比:与传统的基于技能的匹配策略(将同技能水平的玩家匹配在一起)相比,本研究的最优策略的好处随着技能水平数量的增加而线性增长。基于国际象棋平台上的真实数据案例研究,与基于技能的匹配策略相比,最优策略可以提高4-6%的玩家留存,或减少15%的机器人玩家百分比。
- 关于AI机器人的使用:对于使用了AI机器人与玩家进行匹配的游戏而言,本研究的最优匹配策略可以在不降低玩家留存的情况下减少机器人的使用数量,提高玩家体验。
- 关于充值系统:当大多数玩家技能水平较低时,充值系统对低水平玩家的留存有积极影响,即使是没有充值的低水平玩家也可能获益。
三、周期性服务的更新策略优化
原文链接: Content Rotation in the Presence of Satiation Effects | SSRN
(https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4593945)
现实生活中往往存在服务提供者在一段时间内重复地提供相同内容的产品的情况。如健身房通常有十余种不同的健身课程,每种课程每周轮换提供几次;电子游戏往往会按周期提供一些游戏模式,如《使命召唤》包含30多种轮换游戏模式,每周提供5种;视频平台的网红们往往也会按周期更新视频,同一家MCN公司的大网红往往不会再同一天更新视频。
按周期提供产品可以有效防止顾客产生审美疲劳,重拾新鲜感,此外,还可以节约制作内容的成本。那么这种轮换式更新时间表是如何确定的呢?如何优化轮换策略以最大化用户长期活跃度呢?如果服务提供者有2款产品,应该选择哪款作为长期提供产品,哪款作为周期提供产品呢?更进一步的,对于一家有上百个网红的MCN公司,如何设计轮换策略呢?
建模的核心在于刻画顾客的“饱腹感”(satiation)
x
x
x,它表示顾客此时对产品的审美疲劳程度。每种产品有3种参数:边际效用
B
B
B,运营成本
c
c
c,饱腹感衰减系数
γ
\gamma
γ。顾客在时期
t
t
t决定商品的摄入量
q
q
q,获得的效用通过
U
(
x
t
+
q
t
)
−
U
(
x
t
)
U(x^t+q^t)-U(x^t)
U(xt+qt)−U(xt)衡量,其中
U
(
z
)
=
−
1
2
z
2
+
B
z
U(z)=-\frac{1}{2}z^2+Bz
U(z)=−21z2+Bz。代入得到顾客的效用为
−
1
2
q
2
+
(
B
−
x
)
q
-\frac{1}{2}q^2+(B-x)q
−21q2+(B−x)q,求导得到最优的消费量为
q
=
B
−
x
q=B-x
q=B−x。下一阶段顾客的饱腹感更新为
x
t
+
1
=
γ
(
x
t
+
q
t
)
x^{t+1}=\gamma(x^t+q^t)
xt+1=γ(xt+qt)。服务提供者的决策为在每期是否提供商品,即引入0-1变量
y
t
y^t
yt表示,最大化长期收益建模如下:
max
{
y
t
}
t
=
1
T
∑
t
=
1
T
y
t
(
q
t
(
x
t
)
−
c
)
s
.
t
.
x
t
+
1
=
γ
(
x
t
+
q
t
)
,
t
=
1
,
…
,
T
−
1
,
q
t
=
y
t
(
B
−
x
t
)
,
t
=
1
,
…
,
T
,
y
t
∈
{
0
,
1
}
,
t
=
1
,
…
,
T
.
\begin{aligned} \max_{\{y^{t}\}{t=1}^{T}}& \sum{t=1}^Ty^t(q^t(x^t)-c) \\ \mathrm{s.t.}& \begin{aligned}x^{t+1}=\gamma(x^t+q^t),t=1,\ldots,T-1,\end{aligned} \\ &q^{t}=y^{t}(B-x^{t}),t=1,\ldots,T, \\ &y^{t}\in\{0,1\},t=1,\ldots,T. \end{aligned}
{yt}t=1Tmaxs.t.∑t=1Tyt(qt(xt)−c)xt+1=γ(xt+qt),t=1,…,T−1,qt=yt(B−xt),t=1,…,T,yt∈{0,1},t=1,…,T.
研究发现,服务提供者的最优决策是固定频率策略,且最优周期满足
l
∗
=
argmax
l
(
B
(
1
−
γ
l
)
−
c
)
/
l
l^*=\underset{l}{\text{argmax}}(B(1-\gamma^l)-c)/l
l∗=largmax(B(1−γl)−c)/l
随后,在此基础上研究了当存在成本相同但边际效用、饱腹感衰减系数不同的两个产品时,将哪个产品作为长期提供的产品,哪个作为周期提供的产品。这时建模顾客的效用就需要考虑到两个产品的相关性因素。
最后,考虑拥有大量产品的商家如何指定轮换策略的问题。由于问题较难,这里考虑了问题的一种特殊情形,产品具有一定相似性且每期提供相等数量的产品。此时商家需要做出的决策是每次展示商品的数量和商品轮换的周期长度。若在每期提供较多产品,那么顾客可以拥有更多选择,但是轮转周期会较短,更容易有饱腹感;如果在每期提供较少产品,那么顾客选择的空间较少,但是由于轮转周期长,饱腹感可以得到充分消化。
主要研究结果:
1、对于单产品轮换策略,采用固定频率策略是最优的。
2、对于两个产品的定位问题,当两个产品相关性较高时,应选取效用较低、更容易忘记(饱腹感衰减系数较低)的产品作为周期性提供的产品。
3、对于多产品轮换问题,较小的轮换产品菜单和较长的轮换周期比较大的轮换菜单和较短的周期更有效。