1. 性能问题。
2.用的数据来源问题问题。match阶段一般是用的多个系统的数据组成的行为序列,比如搜索+个性化推荐的系统的数据。点击率预估一般是用的自己的个性化推荐的系统数据。例如上图的match和rank的数据是不同的。rank采用的数据是impressive(我理解的是展现的)和观察的数据。而match用的数据有search的数据。
简而言之,CTR预估的数据是用的展现数据,是基于pv数据来预估的。而match阶段的数据是全库数据,所以预测有偏差
如果一个平台有1000w商品,展示的只有100w,该如何解决?
首先,一定有某个系统可以将这1000w系统以一定的概率展示出来,比如搜索系统。否则如果推荐也不出,搜索也不出,则商家利益受损。
1.推荐系统用搜索系统的数据,比如用搜索日志的数据,来构建行为序列。
2.冷启动处理。用规则来敢于