在当今数字化时代,AI系统已经成为众多企业和组织的核心竞争力之一。而在AI系统的架构中,在线系统扮演着至关重要的角色。它不仅是用户直接交互的界面,更是实现业务目标和商业价值的关键环节。本文将深入探讨AI系统中在线系统的构建与应用,重点关注指标建模、控制因子以及多方博弈等关键内容。
指标排序
指标建模看起来是一个排序打分的过程。但它的本质是通过控制排序因子,影响产品业务表现。之前提到过,电商平台为了最大化商品总交易额(GMV),会使用后面的打分方式排序。
这样便可以最大化电商平台最重要的财务指标 GMV。但在很多时候,除了收入,我们还有很多重要的业务指标需要兼顾。比如真正让老牌电商平台头疼的并不是拼多多的营收,而是它高速增长的每日日活用户。
如果老板给了你一个目标,要求通过算法提高产品日活,这时你该怎么办?
你可以通过调整排序分来实现这个目标,这个得分的本质是系统的目标函数,你可以通过各类因子控制指标的消长。
比如你分析数据发现,大部分用户在购买劣质商品后,就不再回到你的平台。这时,你就可以把质量分作为新因子,加入排序分的计算当中。比如使用预测的好评率和退货率来代表质量分,影响排序结果。
根据业务需求,你还可以添加更多的因子。其实,指标因子就是你系统的指挥棒,负责控制产品中的各个业务指标的消长。
控制因子
当然,排序分除了能控制你的业务指标之外,它还可以做更多的事情。你甚至可以用它来实现上节课所提到的流量控制的能力。
首先,你可以使用排序分来统一控制所有逻辑,这样更灵活。同时,这种处理方式也更温和,因为它允许一定的超投弹性。
这样只要内容创作者的内容足够优质,就能获得更多的流量,不会受限于一个冰冷的限流数字,影响创作者的积极性。
这里你可以看到,几乎每个因子背后都使用了一个甚至多个模型来满足打分的需求,比如上面的排序分中涉及到了“XX 率”预测模型和控制因子用到的 PID 控制器方法。
所以这本质上是一个混合专家系统(Mixture of Experts, MoE),该系统通过不同的专家模型解决各个领域的任务,共同实现业务目标。AI 大模型技术如 GPT-4 也普遍依赖这种方法。
现在我们一起看看下面这张图,在线系统需要离线系统提供的各类存储索引和在线模型服务作为弹药,供给各种数据和模型,帮助在线系统完成目标。
多方博弈
刚刚还都是单系统应用,下面我们来进一步探索多智能体系统的一些典型应用场景。
实时竞价问题
不过。这里我们需要先了解一些背景知识做铺垫。互联网广告你一定再熟悉不过了,广告是互联网行业三大收入来源之一,因此优质的广告流量,比如抖音的开屏广告背后有无数的广告主参与竞争,这也催生出了 RTB(RealTime Bidding)实时流量竞价的流量拍卖方式。
如下图,这是一种暗拍游戏,参与者完全不知道其他人的出价,他们只能报出自己心理价位的最高报价,才能提高成交机会。在这个游戏中,各个参与的智能体会根据自己的身份采取不同的博弈策略,你要熟悉智能体这个说法,你的人工智能系统本质上就是一个智能体。
比如买方,也就是竞拍方智能体的目的是赚取更多的“差价”,比如它花了 10 块钱从媒体方买到一次抖音的开屏广告展示机会,再以 20 元卖给广告主,那么这次竞拍的收益就是 20 - 10 = 10 元。
不过真实的场景稍微复杂一些,广告主一般不会直接给出“展示”一次广告的价格,而是通常给出“点击”一次广告的价格,比如一次广告点击就支付 5 美元。
所以,你为了从广告主那里赚到更多的钱,还需要考虑点击率的问题,通常的做法是通过点击率预测,将广告点击价格转换成广告展示价格,
具体的换算方法就是用“点击价格”乘以“点击率”来代表“展示价格,这在本质上是该次展示收益的数学期望。我举个例子,比如点击率是 5%,点击价格是 5 美元的广告,那么这次展示的收益期望就是它们的乘积,也就是 0.25 美元。
当然如果你直接将这个预估的的展示收益作为竞拍价格,发送拍卖平台(Ad Exchange)竞价的话,即使你赢得了竞价,广告主成功也投放了广告,你也不过只是把广告主的钱转交给了提供流量的媒体,做了一个流量的搬运工,白忙活了一番。
所以,你在报价时一定要留出利润空间,不能全盘照单报价。这里你可以通过在报价策略中引入盈利系数,来确保固定的“抽成”比例,比如使用 80% 的出价系数,那你则能在每单成交中抽取 20% 的“佣金”,这也是经典 DSP 的商业模式。
很好,现在你的系统已经能赚一些钱了。不过,不久后你发现,在很多的竞拍中,你会因为设置盈利系数,导致出价降低,失去了许多本来可以竞得的流量。即便这些流量的“抽成空间”小一些,但怎么说还是有一些赚头的。
在线竞价算法
所以,为了这部分流量,你需要一个动态的盈利系数,它既能竞得更多的流量,也能确保每次竞价“抽成”的收益最大。所以你需要知己知彼,预测竞争对手的报价,进而在有利润空间的前提下,用比他稍高一点点的报价来赢得流量。
刚刚我们是从流量买家的视角,来分析这个智能体该如何设计博弈策略。
接下来,我们来到流量卖家的视角,也就是媒体的视角,来看看如何设计多智能体博弈策略。
流量卖家为了获得最大化的收益,不会让他们有机会“消极比赛”,你虽然想只比竞争对手高一点点,可是流量方想让你拿出最多的利润分享给他们,所以他会干扰购买方的策略,比如采取“动态起拍底价”和“智能轮空”的策略来搅浑市场,让竞拍参与者几乎无法“捡漏”。他需要使用的方法主要是拍卖理论和市场竞价预估(Bid Landscape Forecasting)的算法。
多智能体博弈问题
这时,所有集成到 ChatGPT 上的应用都是参与博弈的智能体,所有生态应用都会想尽办法让 ChatGPT 选它,所以它们会给出自己的“最优方案”,这意味着各个应用需要考虑其他应用的行为,才能在激烈的竞争中占据上风。但即便是这样的竞争环境,在围墙之外没有智能博弈能力的应用,也会争相发展相关技术,集成到这个平台,参与利益的争夺。
在未来,你甚至可以让智能体(Agent)代替你完成包括你的工作安排、家庭生活和学习娱乐等在内的几乎所有任务。关于具体的多智能体算法,我们后面课程里还会继续讨论。
这里为你准备了一张图,它展示了斯坦福提出的 AI 智能体社会实验,他们用 25 个 ChatGPT 的大语言模型实例,分别扮演虚构城镇中不同的角色,完成了一场有趣的社会实验。