当一个推荐系统面临高频、瞬时、大幅的流量突变时,如何在维持稳定性的同时,最小化推荐效果损失?
背景
618 对京东来说是一场重要的营销盛会,大促将为业务各个层面带来爆发式增长。然而,超大规模的流量洪峰也对京东各系统提出了严峻考验。
京东联盟是京东的联盟营销平台,主要通过投放站外 CPS 广告来推广京东商品。联盟合作伙伴生成链接并在其他网站或社交媒体平台上推广,用户通过点击这些链接在京东购物,合作伙伴则获得销售提成(佣金)。京东联盟通过这种方式吸引流量,扩大平台的可见度和用户接触范围,实现拉新促活等目标。作为联盟业务流量的主战场,京东联盟推荐系统在大促期间面临着流量突变的巨大挑战。由于业务本身及营销活动和站外媒体引流推动的影响,大促期间推荐系统的流量呈现以下特点:
1.营销活动繁多且频率不一:系统流量波动频繁,难以预测。
2.营销力度及效果差异显著:冰点与爆点流量同时存在,流量分布极不均衡。
3.站外场景众多:目前已达数百个,不同场景流量的变化节奏各不相同。
4.红包活动具有秒杀特性:流量在急速拉升后断崖式下跌。例如,某次活动中,流量表现如下:
图中流量 QPS 在 19:59:57 秒从 3.7K 开始增长,20:00:01 秒达到峰值 2.9W,随后的 1 分钟内逐步回落。流量在 4 秒内增长 9 倍,整个拉升和回降过程在 1 分钟内全部完成。
问题 &挑战
面对上述流量变化的挑战,联盟推荐系统的备战面临以下重大障碍:
1.难以准确预估流量变化:导致无法提前准备充足的系统资源,系统有潜在的崩溃风险。
2.不同场景推荐策略与模型差异大:难以实现统一控制,管理和优化的复杂性升高。
3.流量瞬时大幅波动