学习王树森老师的《推荐算法课程》,自用笔记,欢迎讨论
推荐系统基本概念
推荐系统的转化流程
短期消费指标
点击率 = 点击次数/曝光次数
点赞率 = 点赞次数/点击次数
收藏率 = 收藏次数/点击次数
转发率 = 转发次数/点击次数
阅读完成率 = 滑动到底次数/点击次数*f(笔记长度);f为归一化的函数
北极星指标(推荐系统最关键的指标)
用户规模:日活(DAU)、月活(MAU)
消费:人均使用推荐时长、人均阅读笔记的数量
发布:发布渗透率、人均发布率
优质内容池是推荐系统的核心竞争力。
实验流程:离线实验——>小流量AB测试——>全流量上线
推荐系统的链路
召回(从物品数据库中快速取回一些物品) ——> 粗排(用小模型给物品逐一打分)——>精排(用大模型给物品逐一打分)—>重排(根据精排分数和多样性分数进行排序并进行打散,然后用规则调整物品的排序)
召回通道:协同过滤、双塔召回、属性召回等
为了解决计算量,排序划分为粗排和精排;
重排最重要的功能是多样性抽样;常见方法有MMR和DPP;以及规则打散。
A/B测试
A/B测试的目的
1)考察新的召回通道对线上指标的影响
2)帮助选择最优参数
A/B测试注意事项
1)用户随机分桶
2)流量不够用怎么办?进行分层正交实验,同层实验互斥
Holdout机制
多层实验实验叠加在一起会有折损,因此需要holdout机制。取10%的用户作为holdout桶,其他90%用户做实验组。每个实验周期结束后需要重新划分holdout桶。