搜索引擎
zhangshuliai
这个作者很懒,什么都没留下…
展开
-
搜索引擎-查询
基本过程:1,用户提交查询词;2,查询词分词得到检索词;3,通过检索系统得到检索词所对应的文档;4,对文档进行排序;5,获得文档内容(摘要);6,生成页面。TF/IDF计算检索向量的权重。向量空间模型计算检索向量和文档向量的相关度;布尔模型要求每个检索词都出现,计算速度快。实际中要结合两种方法,先按照布尔模型求交集,再按照向量空间模型计算。多文档列表求交,先求最短的文档的交集,可以原创 2012-09-10 21:40:37 · 460 阅读 · 0 评论 -
搜索引擎-文档编号
文档编号要满足三个要求:1,文档在生命周期内只有一个编号;2,任何两个不同的文档(不只是内容不同)编号都不相同;3,编号要尽量保证存储效率和计算效率。url满足前两条,不满足第三条。太长,不适合排序。可采用64位整数编号,基本可以保证第二条。整数的游程编码,需要时递增数列。存储的是文档编号差,而不是文档编号本身,由于整数范围变小,可以采用变长编码。不适合随机取文档编号,要获原创 2012-09-10 21:09:40 · 386 阅读 · 0 评论 -
搜索引擎-索引
正排索引:文档编号,单词编号,单词的数量,单词出现的位置。倒排索引:1,单词词典,保存单词以及统计信息,单词在记录表中的便宜,可常驻内存,用哈希表存储。2,记录表,单词对应的文档集合,记录单词出现的数目、位置。文档采用差分变长编码。其中文档可按编号升序排列(可利用差分编码)、也可按出现次数排列,可以最快找到最优匹配文档、也可以分块存储,块内安装id升序排列,块间按照页面原创 2012-09-10 21:10:32 · 435 阅读 · 0 评论 -
搜索引擎的发展-管中窥豹
1,第一个阶段是雅虎早期的方式——人工目录。完全通过人工来标记网页,这在互联网不太发达的时候还行得通。优点是精确,缺点是无法处理海量内容。2,第二个阶段是后来google的方式,机器算法分词建索引排序。优点是可以处理海量的网页,缺点是对自然语言理解有一个极限,导致精确性不会太高,最终会达到瓶颈。3,第三个社会化搜索,由网络上的用户做标记。用户虽然不如专家标注的精确,但是要好于机器算法。缺点原创 2012-09-29 10:31:21 · 521 阅读 · 0 评论 -
链接分析笔记
PageRank:基于随机游走模型,有两个假设:入链越多,则页面越重要;入链页面越重要,则权重越高。对于页面组成的闭环,容易产生链接陷阱,可以采用远程跳转的方法,即页面以一定概率赋予非出链页面。HITS 算法:分为Hub页面和Authority页面,有两个假设:好的Authority页面会被很到好的Hub页面指向;好的Hub页面会指向很到好的Authority页面。HITS算法都是在接到用户查原创 2012-09-28 14:46:18 · 552 阅读 · 0 评论 -
社区发现
社区要满足两个条件:一是社区的成员有共同的话题和爱好;二是社区的成员之间的联系相比和社区外的联系要紧密。通过用户的搜索情况可以找到有相同爱好的人,这些人组成候选社区成员。比如用户搜索“NBA”,这个用户就是候选的NBA社区成员。通过一定的算法计算这些成员间的紧密程度,大于一定阀值的成员共同组成了NBA社区。算法有HITS,类似于搜索引擎的链接分析,每个人都有一个H值和A值,迭代计算。也可以原创 2012-09-29 11:26:34 · 2668 阅读 · 0 评论 -
个性化推荐与搜索引擎
基于邻域的推荐算法是一种常用的推荐算法,而基于用户特征的的邻域推荐算法是一种重要的邻域推荐算法。用户A购买了商品B,或者对B做了流量评价等,可以用B表示为A的一个特征,这样每个用户就有多个特征,通过计算用户特征来得到用户的相似性。如果每个特征都赋值相同的权重,效果并不会很好。可以借鉴搜索引擎里面的tf/idf,对于大量被购买的商品,可以赋值较小的权重。其实可以把用户看成是一篇文档,而用户购原创 2012-09-17 22:15:06 · 640 阅读 · 0 评论