![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Lucene/Nutch
xuganggogo
这个作者很懒,什么都没留下…
展开
-
Lucene介绍
1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告...原创 2009-02-01 15:47:01 · 81 阅读 · 0 评论 -
转载Nucth学习链接
转自:http://wind-bell.iteye.com/blog/80135 一些链接(对菜鸟来说,都很不错哟): Linux下安装Lucene(详细)http://blog.c1gstudio.com/archives/142 Windows下Nutch的安装过程http://read.newbooks.com.cn/info/196850.html 在Eclipse下...原创 2009-02-10 11:41:01 · 96 阅读 · 0 评论 -
Nutch
1,下载Nutch0.9 2,到下面两个页面去下载两个jar文件,他们分别是:http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/ 3,修改 Nutch\con...原创 2009-02-09 18:01:10 · 109 阅读 · 0 评论 -
Lucene中使用Paoding中文分词
1,把paoding-analysis-2.0.4-beta解压缩,给项目中加入paoding-analysis.jar。2,把dic文件夹放到项目的根目录中。dic文件夹里是paoding的词库。3,配置paoding的词库:把paoding-analysis-2.0.4-beta\src里面的paoding-dic-home.properties拷贝到项目的根目录下。编辑如下:#valu...原创 2009-02-06 14:03:43 · 135 阅读 · 0 评论 -
Lucene实例
建立索引:package paoding;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStream...原创 2009-02-06 11:15:39 · 77 阅读 · 0 评论 -
Lucene分页方式
推荐的做法是为每一次分页导航都执行一次新的 查询。因为Hits中保存的并不是真正的Document,因此可以通过HIts.doc(index)的方式取出在一定范围内的Document。在获 得Hits后可以用类似下面的方法进行分页处理:private List processHits(Hits hits,int startIndex,int endIndex)throws Exceptio...原创 2009-02-01 16:08:05 · 61 阅读 · 0 评论 -
其他一些经验
10 一些经验10.1关键词区分大小写or AND TO等关键词是区分大小写的,lucene只认大写的,小写的当做普通单词。10.2 读写互斥性同一时刻只能有一个对索引的写操作,在写的同时可以进行搜索10.3 文件锁在写索引的过程中强行退出将在tmp目录留下一个lock文件,使以后的写操作无法进行,可以将其手工删除10.4 时间格式lucene只支持一种时间格式yyMMddHHmm...原创 2009-02-01 16:06:47 · 60 阅读 · 0 评论 -
Lucene性能优化
9 性能优化一直到这里,我们还是在讨论怎么样使lucene跑起来,完成指定任务。利用前面说的也确实能完成大部分功能。但是测试表明 lucene的性能并不是很好,在大数据量大并发的条件下甚至会有半分钟返回的情况。另外大数据量的数据初始化建立索引也是一个十分耗时的过程。那么如何提高lucene的性能呢?下面从优化创建索引性能和优化搜索性能两方面介绍。9.1 优化创建索引性能这方面的优化途径比较...原创 2009-02-01 16:04:51 · 164 阅读 · 0 评论 -
Lucene的搜索
lucene的搜索相当强大,它提供了很多辅助查询类,每个类都继承自Query类,各自完成一种特殊的查询,你可以像搭积木一样将它们任意组合使用,完成一些复杂操作;另外lucene还提供了Sort类对结果进行排序,提供了Filter类对查询条件进行限制。你或许会不自觉地拿它跟SQL语句进行比较:“lucene能执行and、or、order by、where、like ‘%xx%’操作吗?”回答是:“当...原创 2009-02-01 16:04:09 · 81 阅读 · 0 评论 -
建立、维护索引:简单示例
5.1 最简单的能完成索引的代码片断IndexWriter writer = new IndexWriter(“/data/index/”, new StandardAnalyzer(), true);Document doc = new Document();doc.add(new Field("title", "lucene introduction", Field.Store.YES...原创 2009-02-01 15:48:49 · 131 阅读 · 0 评论 -
Lucene的结构
lucene包括core和sandbox两部分,其中core是lucene稳定的核心部分,sandbox包含了一些附加功能,例如highlighter、各种分析器。Lucene core有七个包:analysis,document,index,queryParser,search,store,util。1 analysisAnalysis包含一些内建的分析器,例如按空白字符分词的Whites...原创 2009-02-01 15:47:36 · 92 阅读 · 0 评论 -
Nutch学习心得
用Nutch成功搭建了站内搜索的环境。遇到很多问题是很多很多的,但是办法总比困难多这里杂乱的说说。比如Nutch给出的demo中,很多配置文件都是直接写在conf,也就是编译的根目录底下。当我用svn提交自己项目以后,别人check out下来,根本就用不了。还有自己看了看Nutch0.9高亮处理,与0.8也许多不同。0.8高亮显示比较简单,网上也有很多介绍代码。修改如下:将org....原创 2009-02-13 15:04:41 · 91 阅读 · 0 评论