学习笔记

好记性不如烂博客

spellChecker原理分析

转:http://www.cnblogs.com/huangfox/archive/2012/02/14/2350349.html spellChecker是用来对用户输入的“检索内容”进行校正,例如百度上搜索“麻辣将”,他的提示如下图所示: 我们首先借用lucen...

2013-05-30 19:56:56

阅读数:2091

评论数:0

Lucene中分组统计(GroupBy)及去重(Distinct)性能在数量级上提升解决方案 --- Lucene高性能

转:http://www.cnblogs.com/zengen/archive/2011/04/19/2020681.html 在2010年的时候,写过两篇关于LUCENE高性能GROUP BY、DISTINCT的文章,最近在研究LUCENE的过程中发现了一个名为FieldCache的东...

2013-05-06 16:47:03

阅读数:1339

评论数:0

Lucene 如何实现高性能 GroupBy <二>

转载:http://www.cnblogs.com/zengen/archive/2010/11/30/1892241.html 紧接上一篇 Lucene 如何实现高性能GroupBy  的讲:Lucene--Util--PriorityQueue.cs 先给大家看一段代码,来源于...

2013-05-06 16:45:55

阅读数:780

评论数:0

Lucene 如何实现高性能 GroupBy <一>

转载:http://www.cnblogs.com/zengen/archive/2010/11/24/1886244.html 注:以下讲解代码均以Lucene.net 2.9.2为例。GroupBy效果应用(http://www.tradetuber.com/search?key=l...

2013-05-06 16:42:26

阅读数:1040

评论数:0

近实时搜索SearcherManager和NRTManager的使用

lucene通过NRTManager这个类来实现近实时搜索,所谓近实时搜索即在索引发生改变时,通 过线程跟踪,在相对很短的时间反映给给用户程序的调用 NRTManager通过管理IndexWriter对象,并将IndexWriter的一些方法(增删改)例如 addDocument...

2013-05-05 15:32:20

阅读数:4115

评论数:2

关于lucene的IndexSearcher是否单实例

转载:http://www.2016k.com/programmer/java/06-40.html 转载:http://www.cnblogs.com/huangfox/archive/2010/10/14/1851233.html 参考:http://lucene-group.group....

2013-05-04 14:01:36

阅读数:2404

评论数:0

Tika文本提取工具的使用(word、pdf、excel等)

Tika是Apache的Lucene项目下面的子项目,在lucene的应用中可以使用tika获取大批量文档中的内容来建立索引,非常方便,也很容易使用~ Tika的缺点就是都是依赖外部的jar包,导致jar包的重量太大,lucene的核心包只有1M,tika约20M,tika依赖的外部的jar包有...

2013-05-03 23:42:08

阅读数:5977

评论数:2

lucene自定义过滤器

package util; import java.io.IOException; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.Term; import org.apache.lucene....

2013-05-02 23:52:10

阅读数:1183

评论数:0

lucene自定义QueryParser

QueryParser的自定义和扩展个别方法的功能,其实也就是重写一些方法 package org.itat.lucene.util; import java.text.SimpleDateFormat; import java.util.regex.Pattern; import org...

2013-05-02 09:46:38

阅读数:1454

评论数:0

lucene实现自定义的评分

1、工程目录 2、自定义评分一、根据文件大小来评分,文件越大,权重越低 package util; import java.io.IOException; import org.apache.lucene.index.IndexReader; import org.apache.lu...

2013-05-01 21:41:44

阅读数:3949

评论数:1

lucene实现分组统计的方法

转:http://www.cnblogs.com/huangfox/archive/2012/07/10/2584750.html http://blog.163.com/liugangc@126/blog/static/20374821201011313238137/ 1、工程目录 ...

2013-04-28 11:52:30

阅读数:2445

评论数:0

三、lucene3.5的分词语法[停用词扩展、同义词搜索等]

1 、 2、语汇单元的结构解释 3、同义词的设计思路 4、分词器的比较和测试 package org.lucene.test; import java.io.File; import java.io.IOException; import org.apache.lu...

2013-04-21 21:33:01

阅读数:3265

评论数:0

二、lucene3.5的查询语法

1、工程结构 2、查询语法代码 package org.itat.index; import java.io.File; import java.io.IOException; import java.io.StringReader; import java.text.ParseEx...

2013-04-14 13:10:36

阅读数:2447

评论数:0

一、lucene3.5的创建和增删改查

1、工程结构 2、索引创建时的属性: Field.Store.YES或者NO(存储域选项) 设置为YES表示或把这个域中的内容完全存储到文件中,方便进行文本的还原 设置为NO表示把这个域的内容不存储到文件中,但是可以被索引,此时内容无法完全还原(doc.get) Field....

2013-04-14 10:52:36

阅读数:3848

评论数:3

lucene的小知识点

1、实现查询类TermQuery怎么去关联Analyzer? QueryParser检索的时候就必须指定。 TermQuery不需要。 TermQuery是根据分词后的Term来检索的。所以不需要啦。 http://code.google.com/p/luke/ (对应你Lucene的版本)能够...

2013-04-12 17:05:24

阅读数:1084

评论数:2

二、lucene2.4的增删改查及其查询语法

1、工程结构图 2、排序的几种方式 0 3、增删改查索引 package cn.hj.lucene.dao; import java.io.IOException; import java.util.ArrayList; import java.util.HashMap; ...

2013-04-12 11:13:56

阅读数:743

评论数:0

一、lucene2.4的创建和查询及其分词显示

1、工程目录 2、lucene的创建搜索过程 3、建立索引的示意图 4、硬盘和内存中创建索引示意图 5、lucene的创建及其搜索的代码 package cn.hj.lucene.helloworld; import jeasy.analysis....

2013-04-12 11:13:35

阅读数:1208

评论数:0

lucene概念、API使用方法与和性能优化

转:http://blog.snnu.edu.cn/space/viewspacepost.aspx?postid=19&spaceid=2 1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.co...

2013-04-11 18:04:51

阅读数:889

评论数:0

【Lucene3.0 初窥】文本分析器Analyzer

转:http://hxraid.iteye.com/blog/634577 一个优秀的IR system要做好的第一件事就是利用自然语言处理技术(NLP)对文本进行分析。其中分词是最基本的,其性能直接决定IR system的搜索精度和速度。因此,大型Web搜索引擎都有自己的分词工具。 ...

2013-04-11 14:24:23

阅读数:881

评论数:0

Lucene 3 中写自己的分词器Analyzer

转:http://blog.sina.com.cn/s/blog_4b3b7aff0100g3wh.html Lucene的分词器部分是经常被修改的,我们实验室自己的分词器更适合自然语言处理,因此如何挂载自己的分词结果呢?在Lucene 3 中,发生了较大的变化。研究了半天,只需重写Tokeni...

2013-04-11 14:20:44

阅读数:1198

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭