浅谈点击信号对搜索的影响

a77013bfa63558fdf50c330d6bad1224.png

文 | bytecoder
源 | 知乎

6dfa560c99e09b3700dea483bcf81796.png背景8b7f7591bcd35b54d4fc06007222277f.png

过去一周,我们探讨了搜索系统最核心的指标以及如何通过实验的方式来判断策略的好坏。但是影响一个实验的好坏除去策略本身的影响之外,还会受到一些反直觉的因素的影响;之前在做搜索,尤其是搜索系统成熟之后,曾经出现过一个非常诡异的情况,生产系统上的大多影响面正向的小流量实验都不约而同的出现了衰减(实验开始的第一天核心搜索指标显著正向,之后正向收益开始变窄,直到最后收益消失)

9fd8c8806f0cd3b7dda193d0e3f4ce84.png问题1b22932d1e476a5af73118db2323e951.png

为什么搜索系统的小流量实验会出现衰减,同样以小流量实验验证收益的推荐与广告是否也有类似的情况?这个是一个值得我们认真探究的一个问题,追根溯源还是需要我们综合业务理解和技术本身来对这个问题进行拆解分析。

7fbf6d4a17fa8de4013b3e430ef36d36.png思考ae1c4e71f19320324d688650735e137a.png

针对上述问题,我们可以从搜索要解决的问题出发,来进行问题拆解。搜索是一个以相关性为基础,辅助以吸引度、满意度、权威性、时鲜性、质量、多样性等多种不同目标为一体的复杂业务,整体要解决的问题更偏向于general,要求不同的人搜索得到的结果倾向于一致。

而用户检索query主题相关的page未必是一个最优解,我们还需要引入吸引度的概念,核心就是群众力量是伟大的,在相关性区分度不明显的前提下,引入吸引度从而将优质内容排序位置往前提(将吸引度好的page),为了刻画搜索的吸引度,我们引入的是搜索的点击信号(CTR),当相关性都是3分的时候,为了将优质3分的page往前顶,我们需要将那些CTR高的page排在更靠前的位置,通过普罗大众的行为特性来帮助我们的搜索系统将优质内容往前顶。

但是仅仅依靠吸引度其实容易导致我们的page会受到标题党的骗点击的作弊行为的影响,为了让优质内容得到更多的曝光,我们引入满意度来将劣质标题党的page打掉,常见的满意度的刻画可以依赖于停留时长或者完播率(视频搜索)。

我们以吸引度来举例,搜索的点击刻画是先验和后验的融合,先验更多是依赖于一个点击率预估的模型,主要是帮助我们对全局的Page进行点击预估,更偏向于吸引度刻画能够有强的泛化能力;而后验更多是依赖于统计信息,主要是帮助我们将具有置信点击行为的page往前提。如何将先验和后验融合的更好也是一个非常重要的topic,不作为我们本文讨论的重点。

在吸引度的刻画中,有一类特征非常重要,就是后用行为特征:

1. 过去1小时当前page的点击次数

2. 过去1天当前page的点击次数

3. 过去一周当前page的点击次数

回到刚才的问题,我们在做流量实验的时候,我们忽视了一点就是索引库中的所有的page是面向所有用户开放的,索引库没有针对不同的流量实验进行索引重建(索引动辄几百亿,成本过高),当我们的实验组上线一个非常好的策略,对应的page上会积累大量的实验组策略带来的用户点击行为。但是我们的对照组(线上策略)进行点击特征信号生成的时候,没有去排除对应的实验组的用户行为所造成的影响,这个时候就会发生点击穿越行为(实验组的用户行为会污染对照组点击特征信号统计)。

搜索里面还有一种重要的信号叫做CQ数据(Click Query),我们会将page的点击query作为一个强的信号引入我们的搜索系统中,当我们对于CQ数据应用的越重,那么上述的点击穿越行为就会越严重,因为实验组带来的收益很快会被对应的page cover住,而对照组和实验组在进行特征统计的时候没有进行区分,这样就会带来大量的穿越行为,从而将实验组的收益消费掉。

那么是否所有的CTR任务都会有这样的影响?答案是肯定的,但是与搜索系统有一点不同的是,推荐和广告更重个性化,相比于搜素更重视全局客观的结果,推荐和广告的点击更重局部,去看单个用户的行为更多,我们在推荐和广告的点击模型中引入了大量的uid的特征,相当于我们进行了用户隔离,整体的穿透问题就不是很大。

afe2bdbb2ee258eb5a395f71b36feab3.png解决思路28342c6b24884aefb1f96eeb586defe1.png

搜索所面临的技术难题不是推荐和广告能够比拟的,在搜索系统里面只要用到点击信号,都会存在不同程度的穿越问题,哪怕你线上迭代的模块和点击没有任何关系,只要做AB实验,那么势必就会有点击穿越问题,真正去解决这种问题现今也没有特别好的方案,而我们唯一能做的就是拿空间来换,在空间维度进行流量区分,对照组的特征统计依赖于非实验组的用户行为特征,这样能缓解一些穿越问题,但是会带来资源的浪费和消耗。

e9a224bc9ff05fc5c207878988613f03.png总结14f0c03958eedfd7c8e690aa31fe828d.png

点击穿越问题是搜索系统里一个比较疼的问题,当我们的系统迭代初期,点击灵敏度不够的时候,穿越问题对我们系统的影响会稍小一些;一旦我们的系统逐步趋于完善,点击灵敏度变高后,这类问题就会非常严重了。纵观国内国外大厂,解决这种方法的手段也就让先验实验最多只有有限时间的收益(半天),或者通过资源来换(不优美,没有真正解决,线下流程变的繁琐)。搜索真的是一个非常难的问题,迭代过程中会遇到不少诡异的问题,需要我们结合业务属性和技术特点来进行分析,坑不少,不过确实很有趣。

2b5ddf30bbd7698c63f9e8f059931a4a.png后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

ac92b05c952a19093f76f145df1e7272.gif
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值