内容来自师徒网:刘鹏--计算广告学
计算广告核心问题和挑战
广告中的计算问题:Find the best match between a given user u, in a given context c, and s suitable ad a.
从优化角度来看
-特征提取:受众定向. 把u和c打上标签的过程
-微观优化:CTR预测. 投是按照ecpm来投
-宏观优化:竞价市场机制
-受限优化:在线分配
-强化学习:探索与利用。试的过程是探索,优化的过程是利用
-个性化重定向:推荐技术
从系统角度来看:
-候选查选:实时索引。新的广告能很快上线,超预算的广告能很快的下线
-特征存储:No-sql技术
-离线学习:Hadoop
-在线学习:流计算。如上一个搜索词是什么
-交易市场:实时竞价
在线广告计算的主要挑战
大规模
-百万量级的页面,十亿量级的用户,需要被分析处理
-高并发在线投放系统(几乎是最高的)
-latency的严格要求。如Ad exchange要求竞价在100ms内返回
动态性
-用户的关注和购物兴趣非常快速的变化。
丰富的查询信息
-需要把用户和上下文中多样的信号一起用于检索广告候选
探索与发现
-用户反馈数据局限于在以往投放中出现的(a,u,c)组合,需要主动探索未观察到的领域,以提高模型正确性
在线广告系统的ROI:
eCPM=CTR*CPC*1000
搜索、广告与推荐的比较
搜索 | 搜索广告 | 显示广告 | 推荐 | |
首要准则 | 相关性 | 投资回报率 | 投资回报率 | 用户兴趣 |
其他需求 | 各垂直领域独立定义 | 质量、安全性 | 质量、安全性 | 多样性,新鲜度 |
索引规模 | 十亿级 | 百万级--千万级 | 百万级 | 百万级-亿级 |
个性化 | 较少的个性化需求 | 较少的个性化需求 | 亿级用户规模上的个性化 | 亿级用户规模上的个性化 |
检索信号 | 较为集中 | 较为集中 | 较为丰富 | 较为丰富 |
DownStream优化 | 不适用 | 不适用 | 不适用 | 适用 |
在线广告系统结构
在线部分:
-高并发投送系统。十毫秒级别的实时决策,百亿次/天的广告投放系统
离线部分:
-受众定向平台。灵活的海量数据挖掘平台。前沿机器学习算法的分布式架构
数据高速公路:内部及外部TB级数据实时收集处理。快速给线上系统反馈,另以方便给BI人员分析。
流式计算平台:日志的准实时挖掘和反馈,反作弊和计价
在线广告系统模块
1.Ad serving 来自用户和来自ad exchange的ad call
2.Ad retrieval
3.Ad ranking
4.Stream computing
5.Data highway
6.Session log generation 根据用户的search、browse的信息做targeting,基础性日志. 应用:Data warehouse/BI, audience targeting, CTR/eCPM预测模型
7.Data warehouse
8.Customized audience segmentation
9.Page attributes system
10. Audience targeting
11. Ad management system