数据挖掘与信息检索
Zoey29
Work hard, Have fun, Make history!
展开
-
统计学习三要素个人理解
模型模型就是所要学习的函数或分布,用以表征输出与输入之间的联系。策略按照什么准则(损失函数,风险函数,经验风险函数=>结构风险函数)选择最好的模型。算法最优化问题求解方法,如何使损失最小进而使模型最好。...原创 2018-10-12 15:31:23 · 726 阅读 · 0 评论 -
Hadoop与Google云架构
Google: 云存储: GFS文件系统 Chubby锁服务 BigTable MegaStore 云存储: MapReduce Percolator Pregel Hadoop: 云计算: HDFS(类似GFS) Zookeeper(类似Chubby) HBase(类似BigTable) 云存储:MapReduce原创 2017-12-06 16:47:50 · 1794 阅读 · 0 评论 -
terrier索引结构
Terrier检索平台对文档集索引后主要生成了四种索引文件,即文档索引、直接索引、词典、倒排索引,下面分别介绍这四种索引的格式。 下图是我对索引文件数据结构的总结: 文档索引(DocumentIndex) 文档索引保存在data.document.fsarrayfile文件中,存储了每个文档的信息,包括文档长度(docLength)、条目数(numEntries)和 指向相应直接索引原创 2017-09-20 09:29:57 · 701 阅读 · 0 评论 -
信息检索模型
检索模型搜索结果排序是搜索引擎的核心,排序时最重要的两个因素就是:用户查询和网页的内容相关性及网页链接情况。检索模型就是用来计算内容相关度的理论基础及核心组件。一个典型的检索模型通常由三部分组成:查询的表示、文档的表示、以及一个检索函数(基于查询和文档各自的表示,显式或隐式的估计两者相关的可能性)。 本文将概述几种常用的检索模型。原创 2017-09-23 10:11:28 · 19970 阅读 · 0 评论 -
Terrier索引及查询的处理
建索引阶段主要的数据结构有:直接索引,文档索引,词典,倒排索引。另外还有一个额外的文档集统计信息。原创 2017-09-07 16:14:52 · 682 阅读 · 0 评论 -
Unary Code
Unary coding, sometimes called thermometer code, is an entropy encoding that represents a natural number n, with n ones followed by a zero (if natural number is understood as non-negative integer) or w原创 2017-09-28 13:27:58 · 1114 阅读 · 0 评论 -
Gamma code
Elias gamma code is a universal code encoding positive integers developed by Peter Elias. It is used most commonly when coding integers whose upper-bound cannot be determined beforehand. Encoding To转载 2017-09-28 13:09:23 · 545 阅读 · 0 评论 -
搜索引擎索引
倒排索引帮助搜索引擎在海量网页中快速找到包含用户查询词的所有网页。一、基本概念 1.单词文档矩阵表达哪些文档包含哪些单词的概念模型。 而搜索引擎的索引就是实现单词文档矩阵的具体数据结构。倒排项(Posting)记载出现过某个单词的所有文档的文档列表及单词在该文档中的位置信息,包含某个单词的一系列倒排项就形成了列表结构,即该单词的倒排列表。原创 2017-09-03 17:07:15 · 1418 阅读 · 0 评论 -
链接分析算法PageRank和HITS
链接分析算法PageRank和HITSPageRankPageRank是Google创始人提出的链接分析算法计算模型,可以说成就了Google公司。 PageRank考察网页时,不仅考虑到入链数量(指向本网页的其它网页数量),还参考了网页质量,两者结合得到更有效的网页重要性评价标准。 首先,数量上。本页面入链越多,越重要; 其次,质量上。指向本页面的页面质量越高,本页面越重要。 Pag原创 2017-09-16 08:54:54 · 2174 阅读 · 0 评论 -
TF-IDF及其算法
TF-IDF及其算法 我的补充:一种词频因子的变体计算公式是:Wtf=1+log(tf)即将词频数值tf取Log值来作为词频权值,比如单词在文档中出现4次,则其词频则其词频因子权值为3,公式中的数字1是为了平滑计算用的,因为如果tf值为1的情况下,取Log后值为0,即原本出现了一次的单词,按照此方法会认为这个单词从来没有从文档中出现过,为避免采用加1进行平滑;转载 2017-09-01 09:38:45 · 3266 阅读 · 0 评论 -
F1-Score
In statistical analysis of binary classification, the F1 score (also F-score or F-measure) is a measure of a test’s accuracy. It considers both the precision p and the recall r of the test to compute t原创 2017-07-03 13:35:26 · 1558 阅读 · 0 评论 -
Bag of words模型
Bag of words,也叫做“词袋”,在信息检索中,Bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。 这种假设虽然对自然语言进行了简化,便于模型化,但是其假转载 2017-06-21 09:46:23 · 893 阅读 · 0 评论 -
基于分级相关性的预期排序倒数
基于分级相关性的预期排序倒数摘要 评价信息检索结果的许多指标可用于二元相关性情况,而只有一个通常能用于分级相关性情况的指标,即折扣累积增益(DCG)。这个指标的一个缺点是它附加的性质和潜在的独立性假设:在一个给定的位置的文档总是具有一样的增益和折损,独立于显示在其之前的文档。启发自“级联”的用户模型,我们提出一个基于分级相关性的新指标克服这个困难并且隐式地折扣位于十分相关文档之下的文档的分翻译 2017-03-10 14:30:52 · 1691 阅读 · 1 评论 -
如何得到一个较好的机器学习系统
牢记“It’s not who has the best algorithm that wins.It’s who has the most data.”要想得到高效的系统:首先,特征一定要选好;其次,模型复杂度要合适。这一点可以降低偏差(bias),即防止欠拟合。保证 J train(θ)比较小。最后,训练数据要充足。这一点可降低方差(variance),防止过拟合。保证J test...原创 2018-10-13 10:31:41 · 510 阅读 · 0 评论