一、讲一下Recall、Hit rate、MRR
1.1. Recall(召回率)
- 在所有真实为正样本(Relevant Items)中,模型正确预测为正样本(Retrieved Relevant Items)的比例。简单理解为:关注的样本中,有多少被模型找到了。
R e c a l l = TP P Recall = \frac{\text{TP}}{\text{P}} Recall=PTP
1.2. Hit Rate(命中率)
- 在每个用户/查询中,只要模型推荐列表中至少有一个正确项,就算命中(Hit)。最后取所有用户/查询中命中的比例。简单理解为:命中的个数
- Hit Rate 常常配合 Top-k 使用,比如 Hit@10,表示推荐前10个中是否有正确答案。
H i t R a t e = Number of Hits Total Number of Queries Hit\ Rate = \frac{\text{Number of Hits}}{\text{Total Number of Queries}} Hit Rate=Total Number of QueriesNumber of Hits
1.3. MRR(Mean Reciprocal Rank,平均倒数排名)
- 在一组查询中,取每个查询第一个正确结果的倒数排名(Reciprocal Rank),再取所有查询的平均值。正确结果排得越靠前,MRR值越高。
M R R = 1 N ∑ i = 1 N 1 r a n k i MRR = \frac{1}{N} \sum_{i=1}^{N} \frac{1}{rank_i} MRR=N1i=1∑Nranki1
其中:- N N N 是查询总数
- r a n k i rank_i ranki 是第 i i i个查询中,第一个正确结果的排名(从1开始)
二、oCPM 与 CPM 的竞价差异
2.1. 基本定义
类型 | 含义 | 计费方式 | 优化目标 |
---|---|---|---|
CPM | Cost Per Mille,按每千次展示计费 | 每千次展示直接付费 | 曝光最大化 |
oCPM | Optimized CPM,优化后千次展示成本 | 仍按千次展示计费 | 转化最大化(点击、注册等) |
2.2. 竞价机制差异
比较维度 | CPM | oCPM | eCPM(用于评估) |
---|---|---|---|
出价对象 | 每千次展示 | 每转化出价(系统折算成每千次展示) | 不参与竞价,仅事后评估 |
优化目标 | 曝光 | 系统自动寻找最可能转化的用户 | 衡量单元广告效果:收入 / 展示 * 1000 |
系统优化能力 | 无 | 有:通过机器学习算法进行人群预测和精准投放 | 无:仅做效果分析使用 |
适用场景 | 品牌曝光、活动推广 | 效果导向型广告(如App安装、注册、下单) | 用于评估不同广告/人群/策略的变现效率 |
2.3. 举例说明
- CPM:出价 10 元 / 千次展示 → 不管用户是否点击或转化,只保证曝光。如果你希望尽可能多地让人看到你的广告 → 选 CPM
- oCPM:希望每个注册成本控制在 50 元以内 → 系统优化展示给可能转化的用户,仍然按展示计费,但更精准。如果你更在意点击率、注册量、下单等具体行为 → 选 oCPM
三、广告归因分析常用方法
广告归因(Attribution)是指确定用户转化行为应归功于哪些广告接触点的过程,帮助评估广告渠道和投放策略的效果。
3.1. 常见归因分析方法
3.1.1. Last-Click Attribution(末次点击归因)
将所有转化归因于用户转化前最后一次点击的广告。
- 优点:简单、易于实施。
- 缺点:忽略了用户完整的转化路径中其他广告的作用。
3.1.2. First-Click Attribution(首次点击归因)
将转化归因于用户最早接触的广告。
- 优点:强调引流渠道的重要性。
- 缺点:忽略中间过程对转化的推动。
3.1.3. Linear Attribution(线性归因)
将转化价值平均分配给用户路径中所有接触的广告。
- 优点:更公平地分配每个接触点的贡献。
- 缺点:无法体现各阶段广告的重要性差异。
3.1.4. Time Decay Attribution(时间衰减归因)
接触点距离转化越近,分配的权重越高。
- 优点:更符合真实行为路径的作用强弱。
- 缺点:可能低估早期广告的重要性。
3.1.5. Position-Based Attribution(位置归因 / U型归因)
将40%权重分配给首次和末次点击,其余20%平均分给中间接触点。
- 优点:平衡首末点击的重要性,适合漏斗型路径分析。
- 缺点:权重分配规则人为设定,缺乏数据驱动支持。
3.2. 归因分析常见应用场景
场景 | 推荐方法 |
---|---|
品牌广告评估 | First-Click / Linear |
效果类广告(电商转化) | Last-Click / Time Decay |
多渠道投放优化 | Position-Based / DDA |
精准预算分配 | DDA |
四、隐私计算下广告ID缺失的应对策略
在隐私保护(如 iOS 14+ 的 App Tracking Transparency、GDPR 等)增强的大背景下,广告投放中用户ID、广告ID等标识符可能缺失或不完整,对精准定向和归因分析造成挑战。以下是常见的应对策略:
4.1. 问题背景
- 广告ID缺失的来源
- iOS 设备用户不授权 IDFA(Apple设备ID)
- GDPR、CCPA 等法规限制收集用户标识
- App SDK 不再允许采集部分硬件ID
- 影响范围
- 用户精准画像受限
- 个性化推荐/排序效果下降
- 归因模型精度降低
4.2. 常见应对策略
4.2.1. 基于上下文(Contextual)特征建模
- 不依赖广告ID或用户ID,转而使用场景特征:
- 当前APP/网页类型
- 内容主题(NLP分类)
- 时间(小时、工作日)
- 地域(城市/省份级别)
- 构建上下文广告排序模型,如 Contextual Bandit、Contextual CTR 模型
4.2.2. 使用设备信息构建弱标识(Device Fingerprint)
- 利用设备软硬件特征构建 hash:
- 屏幕分辨率、OS版本、设备品牌、字体设置等
- 可生成局部稳定的唯一标识
4.2.3. 采用聚合/联邦学习(Federated Learning)
- 不上传广告ID/用户原始数据,采用端侧学习模型参数
- 聚合用户行为进行建模(如 CTR/CVR 预测)
- 应用:
- Google 的 Federated Analytics
- 联邦推荐模型 FedRec、FedCTR 等
4.2.4. 差分隐私保护的统计特征(DP统计)
- 用户行为统计(曝光率、点击率)经差分隐私扰动后使用
- 作为模型输入的辅助信息(不需要原始ID)
4.2.5. 采用群体画像替代个体画像
- 将用户/广告归类至画像群组:
- 设备价格段、内容偏好类别、行为活跃度分组等
- 在人群维度建模(如:活跃女性用户在“美容”类广告的点击概率)