Recode process

最新推荐文章于 2022-07-14 11:00:45 发布

52caml

最新推荐文章于 2022-07-14 11:00:45 发布

阅读量658

点赞数

分类专栏：信息检索计算广告数据挖掘/机器学习

本文链接：https://blog.csdn.net/zhouyongsdzh/article/details/9369345

版权

数据挖掘/机器学习同时被 3 个专栏收录

46 篇文章 1 订阅

订阅专栏

信息检索

22 篇文章 0 订阅

订阅专栏

计算广告

21 篇文章 0 订阅

订阅专栏

2013-07-18 星期四天气晴

1. IR：chapter12:基于语言建模的信息检索模型

看这章的主要目的是熟悉一下，传统的文档检索是基于向量空间模型，其中的权重计算方式为tf-idf：idf(t)用于表示词项t区分文档的能力，如果t出现在大多数文档集中，idf(t)就会很小，说明区分文档的能力就弱，反之则强；

这里基于语言建模，并不是以相关性计算为目标，将每一篇文档看做一门"语言"，如果讨论ML的思路的话，查询q为特征向量X，文档d为类标号y，首先对文档建模得到文档概率语言模型，即认为生成文档的事件是一个多项实验，每一次实验有M个结果，每一个结果有一个概率，那么文档生成~多项式分布，其中采用的语言模型为一元语言模型(unigram language model), 词的多项式分布, 一元模型即为多项式模型，这样P(d)就求出了....

查询似然模型：p(d|q) = p(q|d) * p(d) / p(q); 其中p(q)对于所有文档来讲是一样的, p(d)实际中也是认为是均匀分布的，剩下的核心问题是怎样计算P(q|d)就是说在文档语言模型下，如何计算模型生成查询的概率,

查询生成概率的估计：采用最大似然估计(MLE)，p(q|Md) = ∏ p(t|Md) = ∏ tf(t) / Ld; 其中要注意两个问题：参数估计的稀疏性问题，即词项在文档中的出现非常稀疏。采用的办法就是平滑方法，可以采用线性插值LM 和将全部文档集中获得的语言模型看成贝叶斯更新过程...

总结：提供了全新的视角来进行查询检索，使用生成模型先对文档建模，其实在主题发现时，也是对词项-文档生成过程进行建模的，只不过文档与词项之间隐藏着一层主题(语义)，它是隐含变量，需要用多项式或者dirichlet分布，或者GaP刻画出来，只是topic model问题....

2. 计算广告：搜索广告中查询扩展

三种方法：基于推荐的方法；基于主题的方法；基于数据的方法；、

2013-07-19 星期五天气晴

1. 计算广告：方兴未艾的计算广告学

寻找paper方向，增量学习，解决的是实时产生的数据流动态特征的拟合问题，即让模型很好的识别用户，提高定向的精准性..

2. 计算广告：搜索引擎之广告原理：百度文库视频

机器学习以及推广，其中CTR预估模型中主要的工作是特征设计，需要给予很多的规则，最后用于训练模型的规模达到1000亿样本*100亿级别的特征，保证细粒度和精准性...

3. 计算广告：搜索引擎之广告原理：百度文库视频

广告投放机制

52caml

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Recode process

2013-07-18 星期四天气晴1. IR：chapter12:基于语言建模的信息检索模型看这章的主要目的是熟悉一下，传统的文档检索是基于向量空间模型，其中的权重计算方式为tf-idf：idf(t)用于表示词项t区分文档的能力，如果t出现在大多数文档集中，idf(t)就会很小，说明区分文档的能力就弱，反之则强；这里基于语言建模，并不是以相关性计算为目标，将每一篇文档看做一门"语言"
复制链接

扫一扫

专栏目录