lucene
wxwzy738
这个作者很懒,什么都没留下…
展开
-
lucene实现自定义的评分
1、工程目录2、自定义评分一、根据文件大小来评分,文件越大,权重越低package util;import java.io.IOException;import org.apache.lucene.index.IndexReader;import org.apache.lucene.index.Term;import org.apache.lucene.search.In原创 2013-05-01 21:41:44 · 4945 阅读 · 1 评论 -
lucene自定义QueryParser
QueryParser的自定义和扩展个别方法的功能,其实也就是重写一些方法package org.itat.lucene.util;import java.text.SimpleDateFormat;import java.util.regex.Pattern;import org.apache.lucene.analysis.Analyzer;import org.apache原创 2013-05-02 09:46:38 · 1710 阅读 · 0 评论 -
lucene自定义过滤器
package util;import java.io.IOException;import org.apache.lucene.index.IndexReader;import org.apache.lucene.index.Term;import org.apache.lucene.index.TermDocs;import org.apache.lucene.search.Doc原创 2013-05-02 23:52:10 · 1350 阅读 · 0 评论 -
Tika文本提取工具的使用(word、pdf、excel等)
Tika是Apache的Lucene项目下面的子项目,在lucene的应用中可以使用tika获取大批量文档中的内容来建立索引,非常方便,也很容易使用~Tika的缺点就是都是依赖外部的jar包,导致jar包的重量太大,lucene的核心包只有1M,tika约20M,tika依赖的外部的jar包有多样的功能,比如PDFBox和Apache POI能获取文档的字体,布置和内置图片信息,而Tika只是原创 2013-05-03 23:42:08 · 9294 阅读 · 3 评论 -
关于lucene的IndexSearcher是否单实例
转载:http://www.2016k.com/programmer/java/06-40.html转载:http://www.cnblogs.com/huangfox/archive/2010/10/14/1851233.html参考:http://lucene-group.group.iteye.com/group/topic/24404将indexReader和Index转载 2013-05-04 14:01:36 · 2757 阅读 · 0 评论 -
近实时搜索SearcherManager和NRTManager的使用
lucene通过NRTManager这个类来实现近实时搜索,所谓近实时搜索即在索引发生改变时,通过线程跟踪,在相对很短的时间反映给给用户程序的调用NRTManager通过管理IndexWriter对象,并将IndexWriter的一些方法(增删改)例如addDocument,deleteDocument等方法暴露给客户调用,它的操作全部在内存里面,所以如果你不调用I原创 2013-05-05 15:32:20 · 5112 阅读 · 2 评论 -
Lucene 如何实现高性能 GroupBy <二>
转载:http://www.cnblogs.com/zengen/archive/2010/11/30/1892241.html紧接上一篇 Lucene 如何实现高性能GroupBy 的讲:Lucene--Util--PriorityQueue.cs先给大家看一段代码,来源于PriorityQueue类 protected internal void Initializ转载 2013-05-06 16:45:55 · 955 阅读 · 0 评论 -
Lucene中分组统计(GroupBy)及去重(Distinct)性能在数量级上提升解决方案 --- Lucene高性能
转:http://www.cnblogs.com/zengen/archive/2011/04/19/2020681.html在2010年的时候,写过两篇关于LUCENE高性能GROUP BY、DISTINCT的文章,最近在研究LUCENE的过程中发现了一个名为FieldCache的东东,于是乎重新改进Lucene高性能GROUP BY、DISTINCT,发现性能有了数量级别的提升,究转载 2013-05-06 16:47:03 · 1814 阅读 · 0 评论 -
Lucene 如何实现高性能 GroupBy <一>
转载:http://www.cnblogs.com/zengen/archive/2010/11/24/1886244.html注:以下讲解代码均以Lucene.net 2.9.2为例。GroupBy效果应用(http://www.tradetuber.com/search?key=led)Lucene如果实现高性能的GroupBy、SortBy效果,我想这个应该是Lucene转载 2013-05-06 16:42:26 · 1181 阅读 · 0 评论 -
spellChecker原理分析
转:http://www.cnblogs.com/huangfox/archive/2012/02/14/2350349.htmlspellChecker是用来对用户输入的“检索内容”进行校正,例如百度上搜索“麻辣将”,他的提示如下图所示:我们首先借用lucene简单实现该功能。本文内容如下(简单实现、原理简介、现有问题)转载 2013-05-30 19:56:56 · 3499 阅读 · 0 评论 -
lucene实现分组统计的方法
转:http://www.cnblogs.com/huangfox/archive/2012/07/10/2584750.htmlhttp://blog.163.com/liugangc@126/blog/static/20374821201011313238137/1、工程目录所谓分组统计,就是类似sql里group by的功能。在solr里,这个功能称为faceting转载 2013-04-28 11:52:30 · 4188 阅读 · 0 评论 -
二、lucene3.5的查询语法
1、工程结构2、查询语法代码package org.itat.index;import java.io.File;import java.io.IOException;import java.io.StringReader;import java.text.ParseException;import java.text.SimpleDateFormat;import原创 2013-04-14 13:10:36 · 2818 阅读 · 0 评论 -
lucene中的Token, TokenStream, Tokenizer, Analyzer
转载地址:http://ybzshizds.iteye.com/blog/562794Token: 如果一个字段被token化,这表示它经过了一个可将内容转化为tokens串的分析程序。 Token是建立索引的基本单位,表示每个被编入索引的字符。 在token化的过程中,分析程序会在使用任何转换逻辑(例如去掉 "a” 或 "the" 这类停用词,执行词干搜寻,将无大小写区分的所有文字转换成小写转载 2012-10-22 14:48:57 · 7776 阅读 · 1 评论 -
lucene 排序 (Sort SortField 构造函数)
注意: 在lucene2.9中,排序的字段域必须indexed但是不能tokenized。因为虽然tokenized后虽然可以排序,但是有可能不是你想要的结果,因为tokenized可能会去除停用词或者大小写转换等。(in Lucene 2.9 and when reading java doc for the Sort class I noticed it says "The f转载 2013-02-17 17:20:11 · 12279 阅读 · 0 评论 -
Lucene 3 中写自己的分词器Analyzer
转:http://blog.sina.com.cn/s/blog_4b3b7aff0100g3wh.htmlLucene的分词器部分是经常被修改的,我们实验室自己的分词器更适合自然语言处理,因此如何挂载自己的分词结果呢?在Lucene 3 中,发生了较大的变化。研究了半天,只需重写Tokenizer即可,关键是incrementToken()函数,用来向索引表写入词语数据和位移数据。其中的FM转载 2013-04-11 14:20:44 · 1415 阅读 · 1 评论 -
【Lucene3.0 初窥】文本分析器Analyzer
转:http://hxraid.iteye.com/blog/634577一个优秀的IR system要做好的第一件事就是利用自然语言处理技术(NLP)对文本进行分析。其中分词是最基本的,其性能直接决定IR system的搜索精度和速度。因此,大型Web搜索引擎都有自己的分词工具。 Lucene3.0 的分析器由三个包组成:(1) org.apache.luce转载 2013-04-11 14:24:23 · 1005 阅读 · 0 评论 -
一、lucene2.4的创建和查询及其分词显示
1、工程目录2、lucene的创建搜索过程3、建立索引的示意图4、硬盘和内存中创建索引示意图5、lucene的创建及其搜索的代码package cn.hj.lucene.helloworld;import jeasy.analysis.MMAnalyzer;import org.apache.lucene.analysis.Analy原创 2013-04-12 11:13:35 · 1441 阅读 · 0 评论 -
lucene概念、API使用方法与和性能优化
转:http://blog.snnu.edu.cn/space/viewspacepost.aspx?postid=19&spaceid=21 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 l转载 2013-04-11 18:04:51 · 1005 阅读 · 0 评论 -
二、lucene2.4的增删改查及其查询语法
1、工程结构图2、排序的几种方式03、增删改查索引package cn.hj.lucene.dao;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import原创 2013-04-12 11:13:56 · 872 阅读 · 0 评论 -
三、lucene3.5的分词语法[停用词扩展、同义词搜索等]
1、2、语汇单元的结构解释3、同义词的设计思路4、分词器的比较和测试package org.lucene.test;import java.io.File;import java.io.IOException;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.an原创 2013-04-21 21:33:01 · 3779 阅读 · 0 评论 -
一、lucene3.5的创建和增删改查
1、工程结构2、索引创建时的属性:Field.Store.YES或者NO(存储域选项)设置为YES表示或把这个域中的内容完全存储到文件中,方便进行文本的还原设置为NO表示把这个域的内容不存储到文件中,但是可以被索引,此时内容无法完全还原(doc.get)Field.Index(索引选项)Index.ANALYZED:进行分词和索引,适用于标题、内容等Inde原创 2013-04-14 10:52:36 · 4229 阅读 · 3 评论 -
lucene的小知识点
1、实现查询类TermQuery怎么去关联Analyzer?QueryParser检索的时候就必须指定。 TermQuery不需要。 TermQuery是根据分词后的Term来检索的。所以不需要啦。http://code.google.com/p/luke/ (对应你Lucene的版本)能够查看lucene生产的那些索引文件。 这里你能看到有些域进行分词以后的Term。如果只下原创 2013-04-12 17:05:24 · 1325 阅读 · 2 评论