搜索引擎
文章平均质量分 59
xiaoyaowxl
这个作者很懒,什么都没留下…
展开
-
改进索引压缩(网页重排)-Document Reordering
<br />在任意一个索引节点需要做索引的时候,都需要给每个网页分配一个唯一的ID号,简称docid。<br />DOCID的分配可以是随机的,或者按照爬虫自然的抓取顺序(这样在做索引时比较简便)。<br />然而,为了更好的支持early termination,使得在求交过程中尽快的结算,需要将docid按照PR(PageRank)值进行排序。<br />同时,为了获得更好的压缩效果,需要将相似的文档的文档号尽可能靠近,以获得更小的d-gap(Document Gap)。<br />因此这就引出了在做索转载 2011-02-22 15:41:00 · 311 阅读 · 0 评论 -
关于高维数组计算的一些优化
<br />这方面我刚刚开始了解一些这方面的内容,还没有清楚地整理出来,下面是我推荐的一些阅读。<br /> 后续还将陆续补充一些内容,最后完成一篇博客来完整的论述这一块的内容。<br />推荐阅读:<br />http://www.cs.umd.edu/class/spring2003/cmsc311/Notes/Memory/set.html<br />cache的direct-map 2way,4way的相联方式的揭示,非常简单明了。<br /> -----------------------转载 2011-02-22 16:03:00 · 546 阅读 · 0 评论 -
答索引构造一问
<br />发信人: groupon (cool man), 信区: SearchEngineTech<br />标 题: 问一个索引构造问题<br />发信站: 水木社区 (Tue Jul 27 08:42:12 2010), 站内<br />索引构造中支持skip的机制是不是这样的,我自己琢磨不知道对否,求拍<br /> <br />注:其中skip_block和后面压缩部分都是物理上连续的,这里为了图示方便。<br />倒排表的索引部分肯定在内存中的,<term,loc>pair的结构。<br />转载 2011-02-22 15:34:00 · 309 阅读 · 0 评论 -
什么是流水线友好的代码?
<br />流水线的工作原理和相关介绍参考【1】。<br /> 通常情况下,流水线停滞主要由三方面原因导致:(1)cache不命中,(2)数据依赖,(3)分支指令。<br /> (1)cache不命中一方面因为芯片cache的容量有限,一方面也由程序局部性不强导致,本文不进行展开。 <br /> (2)数据依赖通常由编译器通过乱序来实现。将无数据依赖的指令提前补充到流水线中,相当于提前计算,有数据依赖的指令推迟执行。<br /> (3)分支指令,去掉分支指令转载 2011-02-22 15:50:00 · 387 阅读 · 0 评论 -
rank,learning to rank 方面的paper
<br />去年做的一个简单的survey的参考文献:<br />[1] Tie-Yan Liu et al.Tie-Yan Liu Learning to Rank for Information Retrieval <br />WWW2009 tutorial<br />[2] http://research.microsoft.com/en-us/um/beijing/projects/letor/<br />[3] T. Joachims, Optimizing Search Engines Usi原创 2011-02-23 11:26:00 · 1064 阅读 · 0 评论