信息检索
文章平均质量分 69
52caml
因为梦想所以坚持 关注IT的点点滴滴
展开
-
运用Logistic回归模型进行广告点击率预测
小生是一名在校学生,研究方向是IR,平日对ML、DM非常感兴趣,以下内容均是学习总结,才疏学浅,难免有错误之处,希望大家带着“批判”视角来看本文... 如能提出宝贵意见or建议,不胜感激~正题: 广告点击率估计对广告排序具有较大影响。 点击率估计是指在给定网页和用户的情况下,估计所投放的广告被点击次数占展示总次数的比例。 广告点击率预测在CPC广告排序中是不原创 2013-05-22 20:55:19 · 9012 阅读 · 0 评论 -
生成模型与判别模型
【摘要】 - 生成模型:无穷样本==》概率密度模型 = 产生模型==》预测 - 判别模型:有限样本==》判别函数 = 预测模型==》预测【简介】简单的说,假设o是观察值,q是模型。如果对P(o|q)建模,就是Generative模型。其基本思想是首先建立样本的概率密度模型,再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。这种方法一般建立在统计力学和转载 2013-07-04 16:37:46 · 828 阅读 · 0 评论 -
从决策树学习谈到贝叶斯分类算法、EM、HMM
感谢作者 July,有此好文! 以下是转载, 知识在于分享!原文地址 第一篇:从决策树学习谈到贝叶斯分类算法、EM、HMM (Machine Learning & Data Mining交流群:8986884)引言 最近在面试中,除了基础 & 算法转载 2013-07-25 21:43:16 · 1486 阅读 · 0 评论 -
十道海量数据处理面试题与十个方法大总结
原文here,感谢July~第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用ha转载 2013-07-25 21:53:39 · 621 阅读 · 0 评论 -
Deep Learning in NLP (一)词向量和语言模型
感谢作者的努力,原文hereDeep Learning in NLP (一)词向量和语言模型Posted on 2013 年 7 月 29 日 这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 Deep Learning 算法已经在图像和音频领域取转载 2013-08-02 08:20:13 · 1741 阅读 · 0 评论 -
DSP中的基础算法和模型的详细解析
(转载请保留原文链接 http://www.techinads.com/archives/41authored by 江申_Johnson)美国有一家很优秀的DSP公司–M6D(m6d.com),这个公司只是个startup公司,却已经在KDD之类的顶级会议发表的7-8篇优秀的文章。最近我研究了一下他们的DSP算法,和大家分享一下我的理解,希望以一个实例让大家对DSP中的基础算法和模型转载 2013-08-04 08:14:06 · 1702 阅读 · 0 评论 -
机器学习经典论文
源地址: http://suanfazu.com/discussion/68/机器学习经典论文survey合集#0-tsina-1-13801-397232819ff9a47a7b7e80a40613cfe1感谢分享Active LearningTwo Faces of Active Learning, Dasgupta, 2011Active Learning转载 2013-11-23 23:22:49 · 3368 阅读 · 0 评论 -
ROC、AUC、PR等计算方法
受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性曲线就是以虚报概率为横轴,击中概率为纵轴所组成的坐标图,和被试在特定刺激条件下由于采转载 2014-04-30 16:18:40 · 8142 阅读 · 0 评论 -
PR,ROC,AUC计算方法
受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性曲线就是以虚报概率为横轴,击中概率为纵轴所组成的坐标图,和被试在特定刺激条件下由于采转载 2014-04-30 16:53:21 · 3652 阅读 · 0 评论 -
sklearn.metrics中的评估方法介绍
1. sklearn.metrics.auc(x, y, reorder=False):计算AUC值,其中x,y分别为数组形式,原创 2014-04-30 17:06:36 · 29120 阅读 · 3 评论 -
clucene2.3.3.4编译详解
原文地址here,感谢作者~一、首先在sourceforge上下载clucene-core-2.3.3.4 ,在目前这是最新版本的二、安装boost库boost库安装还是有点麻烦的,首先在在boost官网下载boost,解压后,记得一定要解压在C盘,比如我放在C:\boost\boost_1_47_0目录下,在编译代码的时候系统首先在系统目录下找boost库,这样可转载 2013-07-20 21:35:32 · 652 阅读 · 0 评论 -
Recode process
2013-07-18 星期四 天气晴1. IR:chapter12:基于语言建模的信息检索模型看这章的主要目的是熟悉一下,传统的文档检索是基于向量空间模型,其中的权重计算方式为tf-idf:idf(t)用于表示词项t区分文档的能力,如果t出现在大多数文档集中,idf(t)就会很小,说明区分文档的能力就弱,反之则强;这里基于语言建模,并不是以相关性计算为目标,将每一篇文档看做一门"语言"原创 2013-07-18 16:19:34 · 667 阅读 · 0 评论 -
搜索背后的奥秘——浅谈语义主题计算
本文转自百度搜索研发部_官方博客摘要:两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方转载 2013-07-02 20:30:15 · 635 阅读 · 0 评论 -
计算广告:检索与投放算法总结
1. 检索和投放算法1. 1 条幅广告检索1.1.1 介绍条幅广告是指在网络媒体的网页上所投放的条幅图片广告。分为确定投放和不确定投放。三个子任务:用于信息生成、受众选择和性能预测。有两种不同的受众定向(Audience Targeting)技术:(1). 基于规则的定向(Rule-based); (2). 基于模型的定向(Model-based);1.1.2 基原创 2013-05-28 09:23:44 · 5057 阅读 · 0 评论 -
TF-IDF解析及在计算广告中的应用
TF-IDF解析:TF-IDF是一种常用加权技术。TF-IDF是一种统计方法,用以评估一词项对于一个文件集或一个语料库中的其中一份文件的重要程度。词项的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于原创 2013-05-29 15:18:14 · 1684 阅读 · 0 评论 -
描述一个概率图模型需要多少参数?
原创 2013-07-07 10:21:04 · 1060 阅读 · 0 评论 -
Paper Read Records
本文用来记录读研期间论文阅读情况,并对每一篇文章给出我自己的理解,必要时做出点评.... 主要是记录我的"reading paper career",将来能够回忆起"那些年哥读过的论文..."第1篇:题目:《搜索引擎用户查询的广告点击意图分析》 作者:靳岩钦,张敏,刘奕群,马少平 ; 单位: 清华大学智能技术与系统国家重点实验室本文主要讲述了基于用户查询点击日志的历史点击信息原创 2013-07-16 17:17:40 · 815 阅读 · 0 评论 -
Topic Model_pLSA
\转载 2013-07-01 15:50:30 · 649 阅读 · 0 评论 -
[学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis)
对于理解什么是 主题 是很好的一篇文章 感谢作者 主体模型与pLSA转载 2013-07-02 09:30:08 · 1201 阅读 · 0 评论 -
用实例理解 泊松分布
去年12月,美国康涅狄格州发生校园枪击案,造成28人死亡。资料显示,1982年至2012年,美国共发生62起(大规模)枪击案。其中,2012年发生了7起,是次数最多的一年。去年有这么多枪击案,这是巧合,还是表明美国治安恶化了?前几天,我看到一篇很有趣的文章,使用"泊松分布"(Poisson distribution),判断同一年发生7起枪击案是否巧合。转载 2013-07-02 10:24:43 · 29519 阅读 · 3 评论 -
伯努利过程与泊松过程
随机过程中有两类很重要的过程:到达过程和马尔科夫过程;Ⅰ. 到达过程:到达过程重点研究的是相邻到达时间(即两次到达之间的时间)是相互独立的随机变量模型。IF考虑到达的时间是离散的情形,相邻时间服从几何分布,即伯努利过程;IF考虑到达的时间是连续的情形,相邻时间服从指数分布,即泊松过程。Ⅱ. 马尔科夫过程:考虑数据在时间点上演化,而且未来数据的演化与历史数据有概率相关结构。比如股票的未来日的原创 2013-07-02 18:57:11 · 15436 阅读 · 1 评论 -
python文本处理总结
1. 除去字符串中,不需要的字符,只要有用的原创 2014-05-03 16:17:49 · 3230 阅读 · 0 评论