本文用来记录读研期间论文阅读情况,并对每一篇文章给出我自己的理解,必要时做出点评.... 主要是记录我的"reading paper career",将来能够回忆起"那些年哥读过的论文..."
第1篇:题目:《搜索引擎用户查询的广告点击意图分析》
作者:靳岩钦,张敏,刘奕群,马少平 ; 单位: 清华大学智能技术与系统国家重点实验室
本文主要讲述了基于用户查询点击日志的历史点击信息,来对一个新的查询 预测用户是否广告点击意图。以此来提高广告投放的有效性和精度。对于一个新的查询,经过模型判断此次查询如果没有广告点击意图,那么就较少投放广告投放数量或者不投广告(文中是假设不投);如果此次查询判断有广告点击意图,则返回搜索结果时, 进行广告投送。这样就减少了广告投送的盲目性(每一个查询都投送广告),减少了投放引擎的代价。
首先:用户给予历史数据,统计出广告CTR(广告点击次数/总的点击量) 和 每一天引发广告点击的查询比例;
其次:作者提出了两种方法对搜索引擎用户查询的广告点击意图进行分析和预测,分别是 基于查询词内容匹配的点击预测模型 和 基于贝叶斯分类的预测模型。
基于查询词内容匹配的点击预测模型:考虑怎样判断一个词项是否具有引发广告点击的可能性?文中做法是将日志中所有的查询分为两类:引发过广告点击的查询 和 未引发过广告点击的查询。对所有查询中的词项,根据他们在两类查询中的频度进行排名,如果前者的排名高于(数值上小于)在后者的排名,则具有一定的广告点击意图. 以上判断了单个词项是否具有广告点击意图----------------> 映射到 完整查询的广告意图. 最后,给定任意用户的查询Q,进行中文分词,得到一个词项集合s,并定义一个映射g,即 s = segment(Q) = {t1, t2, ..., tn} g(Q) = g(t1, t2, ..., tn); 如果g(Q)大于某一阈值,则判定查询Q具有引发广告点击的倾向,反之,则没有。
基于朴素贝叶斯分类的预测模型:所有查询被分为两类,不含有广告点击意图的查询C1和有广告点击意图的查询C2。
先验概率p(Ci):分别统计在所有查询中具有和不具有广告点击意图的查询的比例; 每一个词项的条件概率p(t|Ci): 可以通过统计词项t出现在C1和C2类查询中的频度估计.
根据贝叶斯公式可以得到:p(Ci|q)
假设查询中的各个词项独立:s = segment(Q) = {t1, t2, ..., tn};
p1 = p(C1|s) = p(C1)*∏p(t|C1), p2 = p(C2|s) = p(C2)*∏p(t|C2)
如果p1>p2,则Q属于C1, 不含有广告点击意图,这是减少投放数量 or 甚至不投放广告;如果p1<p2, Q属于C2,Q更肯呢过含有广告点击意图,应投放相关广告.
总结: 本文是基于历史点击信息,判断一个新的查询是否具有广告点击意图。如果有,则投放相关的广告(CTR和点击价值), 如果没有,则少投或不投广告;本文只是预测给定查询是否具有广告点击意图(二分类问题), 并没有采用用户信息为特征,并结合用户历史查询or浏览行为进行判断用户是否有点击意图(特征单一),忽略了查询的用户(假设所有user都一样). 优点:通过预测一次查询是否具有点击意图,来决定是否投放广告,这样减少了投放广告的盲目性,提高了投放精度和有效性。(注意这不是广告的精准定向,信息量不足); 缺点:①没有给出明确的CTR,真正的投放引擎还是需要算CTR的;② 只是较少了广告投放引擎的代价,其实对于投放引擎来讲无关紧要....