![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
lucene
yueyeqingshan
这个作者很懒,什么都没留下…
展开
-
Lucene4入门
Lucene4.4入门(1)Lucene主要分为三大块:1、创建索引2、分词3、读取并查询索引我们今天的入门主要讲创建索引和读取查询索引,使用的Lucene的版本是4.4。第一步:创建一个java工程添加lucene-core-4.4.0.jar、lucene-analyzers-common-4.4.0.jar和lucene-queryparser-4.4.0.j转载 2015-04-23 15:12:31 · 432 阅读 · 0 评论 -
用lucene实现在上次检索结果中再检索
出处:http://blog.sina.com.cn/s/blog_614fbac00100eha8.html感谢您的文章Lucene是可以做到的,利用lucene的Filter,具体可以查看lucene的api中的org.apache.lucene.search.CachingWrapperFilter,它可以缓存上次的搜索结果,从而实现在结果中的搜索。测试实例:转载 2015-04-28 10:40:34 · 744 阅读 · 0 评论 -
lucene4.7 分词器 自定义分词器
出处:http://my.oschina.net/MrMichael/blog/220781 感谢您的文章一些特殊的分词需求,在此做个总结。本来的Lucene的内置的分词器,差不多可以完成我们的大部分分词工作了,如果是英文文章那么可以使用StandardAnalyzer标准分词器,WhitespaceAnalyzer空格分词器,对于中文我们则可以选择IK分词器,Messeg转载 2015-04-28 14:15:29 · 442 阅读 · 0 评论 -
Lucene的多域查询、结果中查询、查询结果分页、高亮查询结果和结果评分
出处:http://www.cnblogs.com/zhwl/p/3484804.html 感谢您的文章1.针对多个域的一次性查询1.1.三种方案 使用lucene构造搜索引擎的时候,如果要针对多个域进行一次性查询,一般来说有三种方法: 第一种实现方法是创建多值的全包含域的文本进行索引,这个方案最简单。但是这个防范有个缺点:你不能转载 2015-04-28 10:02:36 · 621 阅读 · 0 评论 -
Lucene 评分(score)机制--Document Boost和Field Boost
出处:http://my.oschina.net/MrMichael/blog/336998 感谢您的文章在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。如果希望某些文档和某些域比其他的域更重要,如果此文档和此域包含所要查询的词则应该得分较高,则可以在索引阶段设定文档的boost和域的boost值。这些值是在索引阶段就写入索引文件的转载 2015-04-28 11:10:00 · 671 阅读 · 0 评论 -
lucene4.7 过滤Filter
出处:http://my.oschina.net/MrMichael/blog/220787感谢您的文章先介绍下查询与过滤的区别和联系,其实查询(各种Query)和过滤(各种Filter)之间非常相似,可以这样说只要用Query能完成的事,用过滤也都可以完成,它们之间可以相互转换,最大的区别就是使用过滤返回的结果集不带评分操作,而使用Query返回的结果都是带相转载 2015-04-28 09:50:59 · 401 阅读 · 0 评论 -
lucene4.7 之排序
出处:http://my.oschina.net/MrMichael/blog/220773感谢您的文章排序是对于全文检索来言是一个必不可少的功能,在实际运用中,排序功能能在某些时候给我们带来很大的方便,比如在淘宝,京东等一些电商网站我们可能通过排序来快速找到价格最便宜的商品,或者通过排序来找到评论数最高或卖的最好的商品,再比如在Iteye里的博客栏里,每天都会以降序的方式转载 2015-04-27 17:34:54 · 612 阅读 · 0 评论 -
lucene搜索方式(query类型)
出处:http://www.2cto.com/kf/201207/140701.html作者:wyq_wzw感谢作者 Lucene有多种搜索方式,可以根据需要选择不同的方式。1、词条搜索(单个关键字查找) 主要对象是TermQuery 调用方式如下: Term term=new Term(字段名,搜索关键字);Query quer转载 2015-04-27 11:27:09 · 638 阅读 · 0 评论 -
构建各种Lucene Query
出处: http://blog.sina.com.cn/s/blog_4efddaed0100bsa8.html感谢您的文章 11.4.5 多关键字的搜索—PhraseQuery除了普通的TermQuery外,Lucene还提供了一种Phrase查询的功能。用户在搜索引擎中进行搜索时,常常查找的并非是一个简单的单词,很有可能是几个不同的关键字。这些关键字之间要么是紧密相联转载 2015-04-27 15:00:55 · 426 阅读 · 0 评论 -
搜索结果的处理和显示
出处:http://www.cnblogs.com/kissdodog/p/3643410.html 感谢您的文章一、提取搜索结果 1、TopDocs对象的说明MaxScore:最高得分;TotalHits:匹配到的结果总数;ScoreDocs:匹配到的文档数组(内部可以获得文档Id与分数); 下面来看看获得的结果信息: Console.WriteL转载 2015-04-29 11:49:18 · 1498 阅读 · 0 评论 -
lucene 高级搜索
出处:http://www.cnblogs.com/kissdodog/p/3640349.html 感谢您的文章一、解析搜索请求 搜索请求的概念是,用户输入关键词,然后程序去分析关键词,获取用户搜索的真实意图。 Lucene提供了一套QueryParser类,用来解析搜索请求。这个类是可以使用的。 1、QueryParser的基本使用 QueryParser转载 2015-04-29 11:21:05 · 981 阅读 · 0 评论 -
java.lang.IllegalArgumentException: cannot index term vector offsets
在用LUCENE 4.7.2 创建索引时候 想存储偏移变量 用到了 FieldType 但一直报错 错误代码如下: FieldType TYPE_STORED = new FieldType(); //是否索引 TYPE_STORED.setIndexed(true); //是否分词 TYPE_STO原创 2015-04-24 10:57:07 · 501 阅读 · 0 评论 -
spellChecker原理分析
出处: http://www.cnblogs.com/huangfox/archive/2012/02/14/2350349.html 感谢您的文章 。spellChecker是用来对用户输入的“检索内容”进行校正,例如百度上搜索“麻辣将”,他的提示如下图所示: 我们首先借用lucene简单实现该功能。本文内容如下(简单实现、原理简介、现有问题)转载 2015-04-24 09:41:19 · 902 阅读 · 0 评论 -
lucene3.X Field部分参数设置含义
出处: http://zuoqiang.iteye.com/blog/1326622感谢您的文章 lucene 3中的FieldField.Store.YES:存储字段值(未分词前的字段值)Field.Store.NO:不存储,存储与索引没有关系Field.Store.COMPRESS:压缩存储,用于长文本或二进制,但性能受损Field.Inde转载 2015-04-24 10:13:17 · 456 阅读 · 0 评论 -
中文分词器IK和Paoding技术对比
1. IK和Paoding的技术介绍一、Ik分词器介绍:优点:采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。优化的词典存储,更小的内存占用转载 2015-04-23 15:01:15 · 2190 阅读 · 0 评论 -
Lucene in action 笔记 term vector
Leveraging term vectors所谓term vector, 就是对于documents的某一field,如title,body这种文本类型的, 建立词频的多维向量空间.每一个词就是一维, 这维的值就是这个词在这个field中的频率. 如果你要使用term vectors, 就要在indexing的时候对该field打开term vectors的选项:Fiel转载 2015-04-23 09:59:37 · 296 阅读 · 0 评论 -
lucene索引结构(三)-词项向量(TermVector)索引文件结构分析
出处:http://blog.csdn.net/wangzhengnb/article/details/7782549感谢您的文章0. 事先对代码进行的一点修改 当我准备开始分析此项向量索引文件的时候,突然发现我的索引程序生成的索引文件里没有.tvx,.tvd,.tvf这三个文件。看了看lucene文档,才知道了"Term Vector support is a转载 2015-05-07 16:31:19 · 718 阅读 · 0 评论