搜索引擎
文章平均质量分 64
zpf1217
这个作者很懒,什么都没留下…
展开
-
深入 Lucene 索引机制
<br />转自:http://www.ibm.com/developerworks/cn/java/wa-lucene/#main<br />Lucene 是一个基于 Java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目,下面我们即将学习 Lucene 的索引机制以及它的索引文件的结构。<br />在这篇文章中,我们首先演示如何使用 Lucene 来索引文档,接着讨论如何提高索引的性能。最后我们来分析 L转载 2010-08-17 01:29:00 · 424 阅读 · 0 评论 -
Lucene初级教程
<br />文章非常好,但是好像只能找到一半,我日。。。网上的都是这一半。。。<br /> <br />版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明<br />http://yyang1986321office.blogbus.com/logs/40544996.html<br /><br /> <br />原帖地址:http://www.chinawebber.com/_info/content/content_8782.htm<br />在此对原作者表示感谢~<br />------转载 2010-08-17 01:22:00 · 479 阅读 · 0 评论 -
实战 Lucene,第 1 部分: 初识 Lucene
<br />本文首先介绍了Lucene的一些基本概念,然后开发了一个应用程序演示了利用Lucene建立索引并在该索引上进行搜索的过程。<br />Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。<br />目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能转载 2010-08-17 01:25:00 · 364 阅读 · 0 评论 -
Lucene 2 教程
文章是好文章,就是没法完美的转贴,呵呵(转自http://www.blogjava.net/liuwentao253/archive/2007/01/08/92401.html)Lucene 2 教程Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。其功能非常的强大,api也很简单。总得来说用Lucene来进行建立和搜索和操作数据库是差不多的(有点像),Document可以看作是数据库的一行记录,Field可以看作是数据库的字段。用lucene实现搜索引擎就像用JDBC实现连接数据库转载 2010-08-17 01:39:00 · 415 阅读 · 0 评论 -
操他妈的!终于成功了!!!日啊。。。UBUNTU下NUTCH1.1网页搜索结果总为0解决,太悲剧了。。。
<br />UBUNTU下配置NUTCH1.1,按照书上<Lucene+Nutch 搜索引擎开发>一步一步来,前面都是成功的,包括建索引和对索引的搜索,但是到了从网页搜索索引的时候却总是返回0,。。。好无语了。。。网上绝大部分都是说要更改配置文件,增加至 nutch/WEB-INF/classes 下 nutch-site.xml ,增加配置为<br /> <br /> <br /><property><br /> <name>http.agent.name</name><br /> <value>*<原创 2010-08-31 02:15:00 · 2274 阅读 · 4 评论 -
相当的悲剧,Nutch1.1 关于User-Agent 问题
<br />今天定了个计划,想做 一个程序员解答的 专业搜索引擎,因为各方面的原因,主要是带宽和速度,现在不能去做通用搜索引擎,所以之能做一些专用和 整站搜索的引擎,昨天对我们公司的做了下,很开心。。。呵呵,<br /> <br />关于程序员 技术方面的 看法:因为好多技术问题,通用搜索引擎无法给出好的解答,因为不够专业,而且如果在搜索引擎上排的靠前。。必然是一些过时的。。。(为什么?自己想想,呵呵),这也是stackOverFlow诞生的根源(详见http://stackoverflow.com/,中国原创 2010-09-01 01:59:00 · 845 阅读 · 0 评论 -
lucene3.02 的analyzer分析语汇单元
<br />下面用代码展示 LUCENE自带的四种analyzer对相同文本分析结果的 异同<br />注:因为在2.9以后,lucene对语汇单元引入了一种新的机制。。。我用的资料是2006年的lucene in action,所以是老的代码。。。好悲哀。。。查了好多API,才用新的实现。。。<br /> A new TokenStream API has been introduced with Lucene 2.9. This API has moved from being Token-bas原创 2010-09-03 15:44:00 · 662 阅读 · 0 评论 -
Lucene3.02 添加自定义analyzer
<br />Analyzer主要用来分词,一个是对数据的分词,对分析出来的关键词建索引,第二个就是对查询语句分词,使其能更好的匹配,下面就添加一个最简单的analyzer,功能为如果词是"afei",就能形成关键字。。。不是就忽略。。。这个分词器其实已经失去了意义。。。因为只能返回一个词。。。悲哀。。。<br />Analyzer:在新建 IndexWriter时会传入Analyzer,并调用tokenStream获得相应的tokenStream,我们这里就获得自己定义 的 AfeiCIGenFilter,原创 2010-09-07 10:03:00 · 1553 阅读 · 0 评论