学习笔记

好记性不如烂博客

spellChecker原理分析

转:http://www.cnblogs.com/huangfox/archive/2012/02/14/2350349.html spellChecker是用来对用户输入的“检索内容”进行校正,例如百度上搜索“麻辣将”,他的提示如下图所示: 我们首先借用lucen...

2013-05-30 19:56:56

阅读数:2075

评论数:0

Lucene中分组统计(GroupBy)及去重(Distinct)性能在数量级上提升解决方案 --- Lucene高性能

转:http://www.cnblogs.com/zengen/archive/2011/04/19/2020681.html 在2010年的时候,写过两篇关于LUCENE高性能GROUP BY、DISTINCT的文章,最近在研究LUCENE的过程中发现了一个名为FieldCache的东...

2013-05-06 16:47:03

阅读数:1314

评论数:0

Lucene 如何实现高性能 GroupBy <二>

转载:http://www.cnblogs.com/zengen/archive/2010/11/30/1892241.html 紧接上一篇 Lucene 如何实现高性能GroupBy  的讲:Lucene--Util--PriorityQueue.cs 先给大家看一段代码,来源于...

2013-05-06 16:45:55

阅读数:778

评论数:0

Lucene 如何实现高性能 GroupBy <一>

转载:http://www.cnblogs.com/zengen/archive/2010/11/24/1886244.html 注:以下讲解代码均以Lucene.net 2.9.2为例。GroupBy效果应用(http://www.tradetuber.com/search?key=l...

2013-05-06 16:42:26

阅读数:1034

评论数:0

近实时搜索SearcherManager和NRTManager的使用

lucene通过NRTManager这个类来实现近实时搜索,所谓近实时搜索即在索引发生改变时,通 过线程跟踪,在相对很短的时间反映给给用户程序的调用 NRTManager通过管理IndexWriter对象,并将IndexWriter的一些方法(增删改)例如 addDocument...

2013-05-05 15:32:20

阅读数:4043

评论数:2

关于lucene的IndexSearcher是否单实例

转载:http://www.2016k.com/programmer/java/06-40.html 转载:http://www.cnblogs.com/huangfox/archive/2010/10/14/1851233.html 参考:http://lucene-group.group....

2013-05-04 14:01:36

阅读数:2380

评论数:0

Tika文本提取工具的使用(word、pdf、excel等)

Tika是Apache的Lucene项目下面的子项目,在lucene的应用中可以使用tika获取大批量文档中的内容来建立索引,非常方便,也很容易使用~ Tika的缺点就是都是依赖外部的jar包,导致jar包的重量太大,lucene的核心包只有1M,tika约20M,tika依赖的外部的jar包有...

2013-05-03 23:42:08

阅读数:5918

评论数:2

【JAVA】BitSet的源码研究

转:http://www.cnblogs.com/lqminn/archive/2012/08/30/2664122.html 这几天看Bloom Filter,因为在java中,并不能像C/C++一样直接操纵bit级别的数据,所以只能另想办法替代: 1)使用整数数组来替代; ...

2013-05-03 11:35:41

阅读数:1640

评论数:0

lucene自定义过滤器

package util; import java.io.IOException; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.Term; import org.apache.lucene....

2013-05-02 23:52:10

阅读数:1181

评论数:0

lucene自定义QueryParser

QueryParser的自定义和扩展个别方法的功能,其实也就是重写一些方法 package org.itat.lucene.util; import java.text.SimpleDateFormat; import java.util.regex.Pattern; import org...

2013-05-02 09:46:38

阅读数:1434

评论数:0

lucene实现自定义的评分

1、工程目录 2、自定义评分一、根据文件大小来评分,文件越大,权重越低 package util; import java.io.IOException; import org.apache.lucene.index.IndexReader; import org.apache.lu...

2013-05-01 21:41:44

阅读数:3922

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭