- 博客(5)
- 收藏
- 关注
转载 深入 Lucene 索引机制
简介: Lucene 是一个基于 Java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目,下面我们即将学习 Lucene 的索引机制以及它的索引文件的结构。在这篇文章中,我们首先演示如何使用 Lucene 来索引文档,接着讨论如何提高索引的性能。最后我们来分析 Lucene 的索引文件结构
2012-05-30 11:53:28 555
转载 CLucene加入ICTCLAS中文分词
最近,我在开发桌面搜索软件,其中桌面搜索最核心的部分就是全文检索。之前已经完成了一个初始版本。全文检索是使用的中科院计算所郭博士的Firtex,后来有位老师说Firtex最近没人在维护,建议使用CLucene,于是我老板就提议再开发另一个版本——CLucene版的桌面搜索。CLucene是C++版的Lucene,提供全文检索的功能。在网上找了部分资料,主要都是如何在CLucene中加入中文分词
2012-05-29 16:44:44 3030 2
转载 Clucene实现中文分词搜索
最近,一阵忙乎,终于在Clucene(版本0.9.16)中实现了中文分词搜索。一些需要改动的地方如下: 一、 把项目设置为Use Unicode Character Set。因为使用ANSI时,汉字存在与其他语言编码重叠的问题,不能准确判断是否为汉字。 二、 \src\CLucene\util\Misc.cp
2012-05-29 16:44:14 1430
转载 clucene2.3.3.4编译详解
最近总是有人给我留言,说Clucene编译不过去,大概是因为我以前发的一篇笔记的影响吧http://blog.csdn.net/p569354158/article/details/6407456#reply这不,今天又有人问了,所以抽点时间,写一下我编译的过程,希望能帮助大家。一、首先在sourceforge上下载clucene-core-2.3.3.4 ,在目前这是最新版本的
2012-05-25 16:31:05 1251 4
转载 Lucene学习总结之一:全文检索的基本原理
一、总论根据http://lucene.apache.org/java/docs/index.html 定义:Lucene 是一个高效的,基于Java 的全文检索库。 所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据 和非结构化数据 。结构化数据: 指具有固定格式或有限长
2012-05-24 16:15:28 769
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人