- 博客(11)
- 资源 (36)
- 收藏
- 关注
转载 spellChecker原理分析
转:http://www.cnblogs.com/huangfox/archive/2012/02/14/2350349.htmlspellChecker是用来对用户输入的“检索内容”进行校正,例如百度上搜索“麻辣将”,他的提示如下图所示:我们首先借用lucene简单实现该功能。本文内容如下(简单实现、原理简介、现有问题)
2013-05-30 19:56:56 3475
转载 Lucene中分组统计(GroupBy)及去重(Distinct)性能在数量级上提升解决方案 --- Lucene高性能
转:http://www.cnblogs.com/zengen/archive/2011/04/19/2020681.html在2010年的时候,写过两篇关于LUCENE高性能GROUP BY、DISTINCT的文章,最近在研究LUCENE的过程中发现了一个名为FieldCache的东东,于是乎重新改进Lucene高性能GROUP BY、DISTINCT,发现性能有了数量级别的提升,究
2013-05-06 16:47:03 1802
转载 Lucene 如何实现高性能 GroupBy <二>
转载:http://www.cnblogs.com/zengen/archive/2010/11/30/1892241.html紧接上一篇 Lucene 如何实现高性能GroupBy 的讲:Lucene--Util--PriorityQueue.cs先给大家看一段代码,来源于PriorityQueue类 protected internal void Initializ
2013-05-06 16:45:55 948
转载 Lucene 如何实现高性能 GroupBy <一>
转载:http://www.cnblogs.com/zengen/archive/2010/11/24/1886244.html注:以下讲解代码均以Lucene.net 2.9.2为例。GroupBy效果应用(http://www.tradetuber.com/search?key=led)Lucene如果实现高性能的GroupBy、SortBy效果,我想这个应该是Lucene
2013-05-06 16:42:26 1172
原创 近实时搜索SearcherManager和NRTManager的使用
lucene通过NRTManager这个类来实现近实时搜索,所谓近实时搜索即在索引发生改变时,通过线程跟踪,在相对很短的时间反映给给用户程序的调用NRTManager通过管理IndexWriter对象,并将IndexWriter的一些方法(增删改)例如addDocument,deleteDocument等方法暴露给客户调用,它的操作全部在内存里面,所以如果你不调用I
2013-05-05 15:32:20 5093 2
转载 关于lucene的IndexSearcher是否单实例
转载:http://www.2016k.com/programmer/java/06-40.html转载:http://www.cnblogs.com/huangfox/archive/2010/10/14/1851233.html参考:http://lucene-group.group.iteye.com/group/topic/24404将indexReader和Index
2013-05-04 14:01:36 2741
原创 Tika文本提取工具的使用(word、pdf、excel等)
Tika是Apache的Lucene项目下面的子项目,在lucene的应用中可以使用tika获取大批量文档中的内容来建立索引,非常方便,也很容易使用~Tika的缺点就是都是依赖外部的jar包,导致jar包的重量太大,lucene的核心包只有1M,tika约20M,tika依赖的外部的jar包有多样的功能,比如PDFBox和Apache POI能获取文档的字体,布置和内置图片信息,而Tika只是
2013-05-03 23:42:08 9231 3
转载 【JAVA】BitSet的源码研究
转:http://www.cnblogs.com/lqminn/archive/2012/08/30/2664122.html这几天看Bloom Filter,因为在java中,并不能像C/C++一样直接操纵bit级别的数据,所以只能另想办法替代:1)使用整数数组来替代;2)使用BitSet;BitSet实际是由“二进制位”构成的一个Vector。如果希望高效率
2013-05-03 11:35:41 1861
原创 lucene自定义过滤器
package util;import java.io.IOException;import org.apache.lucene.index.IndexReader;import org.apache.lucene.index.Term;import org.apache.lucene.index.TermDocs;import org.apache.lucene.search.Doc
2013-05-02 23:52:10 1334
原创 lucene自定义QueryParser
QueryParser的自定义和扩展个别方法的功能,其实也就是重写一些方法package org.itat.lucene.util;import java.text.SimpleDateFormat;import java.util.regex.Pattern;import org.apache.lucene.analysis.Analyzer;import org.apache
2013-05-02 09:46:38 1700
原创 lucene实现自定义的评分
1、工程目录2、自定义评分一、根据文件大小来评分,文件越大,权重越低package util;import java.io.IOException;import org.apache.lucene.index.IndexReader;import org.apache.lucene.index.Term;import org.apache.lucene.search.In
2013-05-01 21:41:44 4912 1
log4j日志的工程
2014-05-27
android的内容提供者
2013-09-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人