lucene
Xiao_Qiang_
java,python
展开
-
MultiSearcher 对于相关度评分Score的合并
一次在google“分布式 solr”的时候看到一个帖子点击打开链接 ,有人问“分布式搜索时,不知道有没有使用全局的idf来ranking?“,同样的问题我以前也想到过的,只是没有去细究;那就现在直接做个实验吧,也不要去纠结了。 实验的计划是这样的,放两个目录的索引文件,一个索引中的IDF比较底,一个高点(实现的话就在里面多放点重复的单词),那么他们的Score也就不一样了;然原创 2011-11-24 14:52:56 · 1067 阅读 · 0 评论 -
lucene query time join (关联搜索)
先看个图吧注意:上图中的article_id可以理解为一个“外键”query time join 已经在solr存在一段时间了但是lucene中有这个终归是好事,多一种选择嘛,实现这种关联的document还是很实用的,可以实现部分关联查询;更新属性的时候也可以设计好结构,更新部分索引了。这个解释有点费劲,还是看代码吧,final String idField原创 2012-07-23 12:09:00 · 3499 阅读 · 0 评论 -
lucene3.3的简单例子
这里主要写一个lucene3.3的简单例子:首先,当然是helloworld程序:Java代码 package com.lucene.demo; import java.io.File; import java.util.List; import org.apache.lucene.analysis.Analyzer; import org.apach转载 2012-07-25 09:36:39 · 1259 阅读 · 0 评论 -
lucene的缓存机制和实现方案
Lucene的缓存机制和解决方案概述... 11、Filter Cache. 12、field缓存... 23、结论... 64.LuceneBase缓存解决方案... 6 概述lucene的缓存可分为两类:filter cache和field cache。filter cache的实现类为CachingWrapperFilter,用来缓存其他Fil转载 2012-09-18 08:32:46 · 1291 阅读 · 0 评论 -
Lucene 4.0 正式版发布,亮点特性中文解读
Lucene 4.0 正式版发布,亮点特性中文解读作者:田春峰 微博 2012年10月12日,Lucene 4.0正式发布了(点击这里下载最新版),这个版本因为诸多的新特性和大胆的架构调整一直备受期待。无论是索引结构,索引算法以及整体架构的包容性都发生了翻天覆地的变化。正如大家一直所说的Lucene是一个搜索工具包 ,而4.0的发布则让Lucene向转载 2012-10-16 12:11:27 · 850 阅读 · 0 评论 -
Solr 删除数据的几种方式
有时候需要删除 Solr 中的数据(特别是不重做索引的系统中,在重做索引期间)。删除一些 Solr 无效数据(或不合格数据)。删除 solr 中的数据有几种方式:1、先来看 curl 方式:curl http://localhost:8080/update --data-binary "title:abc" -H 'Content-type:text/xml; charset=转载 2012-11-14 17:10:10 · 1676 阅读 · 1 评论 -
使用 Apache Lucene 和 Solr 进行位置感知搜索
简介: 不管是通过支持 GPS 的智能手机查找最近的咖啡馆,还是通过社交站点查找附近的朋友,或是查看特定城市中运输某种商品的所有货车,越来越多的人和企业都使用位置感知的搜索服务。创建位置感知搜索服务通常属于昂贵的专用解决方案的一部分,并且一般由地理空间专家完成。不过,很流行的开源搜索库 Apache Lucene 和强大的 Lucene 搜索服务器 Apache Solr 最近添加了空间位置功能。转载 2012-11-20 11:38:08 · 750 阅读 · 0 评论 -
Lucene Syntax (lucene查询语法详解)
翻译:Lucene Syntax (lucene查询语法详解)Lucene提供了丰富的API来组合定制你所需要的查询器,同时也可以利用Query Parser提供的强大的查询语法解析来构造你想要的查询器。本文章详细的介绍了Lucene的查询语法。通过Java语法分析器把一个查询字符串解析成 Lucene的查询器。在你选择使用Query Parser前,请考虑以下事项:如果你打算在程序中转载 2013-01-14 11:42:15 · 879 阅读 · 0 评论 -
分布式搜索方案选型
分布式搜索方案选型之一:Solr 我第一个了解到的分布式搜索框架是solr,它是由java开发的,基于lucene的分布式搜索引擎,提供了类似于webserver的编程接口,是一个比较成熟的搜索引擎,目前很多公司都在使用。很快我就部署了一个由4台机器组成的solr集群,开始导公司的数据进去测试,导的数据为200万。导入速度非常快。接下来就开始测试查询效率,发现它是有缓存的,第一次转载 2013-04-05 20:14:00 · 1254 阅读 · 1 评论 -
Solr\Lucene优劣势分析
最早lucene2.4以及以前,追溯到2008年前后,lucene刚刚引起大家的关注,到后来Nutch、solr的出现,lucene变得更加热。Nutch、Solr的发展,极大推动了lucene的升级。对于一些接触过搜索,使用过lucene、solr的人来说,一般都会感觉lucene、solr很牛逼。我个人也认为solr、lucene确实非常NB,他涵盖了信息检索的几乎全部基础知识和非常高转载 2013-08-14 11:42:23 · 1413 阅读 · 0 评论 -
lucene (2.9--- 3.6) 范围搜索优化
原先在处理范围搜索的时候,发现了SortField.BYTE 但是在建索引的时候NumericField并没有setByteValue,只有(int/ long / folat /double),很是奇怪;逛了一些论坛,也没见啥好的解释;后来看到了NumericUtils的解释,很有意思,http://lucene.apache.org/core/old_versioned_原创 2012-07-25 11:23:28 · 1025 阅读 · 0 评论 -
Lucene 4.0 的重大升级内容一览
Lucene 4.0 的重大升级内容一览作者:田春峰,微博新浪微博上阿朱(博客 ,微博)提示让我说说Lucene 4.0 的特点。最近也在做搜索相关的项目,一直关注Lucene 3.x 之后下一步的发展方向。我就把我了解到的Lucene 4.0的一些资料和大家分享一下。大家都知道Lucene的作者是Doug Cutting ,这位博士毕业生因为工作不稳定,想学j转载 2012-08-02 13:55:09 · 1683 阅读 · 0 评论 -
SmartChineseAnalyzer的对中文开源社区是一大贡献
转自 : SmartChineseAnalyzer_java - imdict-chinese-analyzer - Project Hosting on Google Code.htm 欣喜的看到在lucene 3.0里已经集成进了SmartChineseAnalyzer这个基于隐马尔科夫模型的中文分词模块,绝对是对中文开源社区的一大贡献。绝对得支持啊! /转载 2012-05-04 10:00:54 · 1896 阅读 · 0 评论 -
lucene2.9 中文分词学习和SmartChineseAnalyzer的用法
lucene2.9的发布,增加了中文分词这个强大的功能. 以下就是这三个类的用法ChineseAnalyzer,CJKAnalyzer,SmartChineseAnalyzer这三个类的结果如下:Example phrase: "我是中国人" ChineseAnalyzer: 我-是-中-国-人 CJKAnalyzer: 我是-是中-中国-国人 SmartChineseA转载 2012-05-04 09:58:36 · 1984 阅读 · 0 评论 -
遍历lucene索引库
遍历lucene索引库2009年10月21日 星期三 下午 4:59使用Lucene的API遍历Lucene索引一般使用Lucene的人都很少需要对索引进行遍历之类的操作,因为使用Lucene一般都不会对其索引文件产生太大兴趣,只注重将Lucene作为一个全文检索工具来使用而已,并不在意其内部实现和结构。但是很多学习Lucene的朋友都希望可以看见完整的Lucene索引内容,至少包转载 2012-05-11 10:40:50 · 2564 阅读 · 1 评论 -
lucene计算文本相似度算法
Leveraging term vectors 所谓term vector, 就是对于documents的某一field,如title,body这种文本类型的, 建立词频的多维向量空间.每一个词就是一维, 这维的值就是这个词在这个field中的频率. 如果你要使用term vectors, 就要在indexing的时候对该field打开term vectors的转载 2012-05-16 11:55:32 · 7184 阅读 · 1 评论 -
lucene排序---相关度与其他组合排序
原先一直有这个概念,就是在lucene中相关度排序和其他排序是不能组合使用;但是一直怀疑这个观念,我记得是书上看到的(网上也有人这么说),但是有不能确定。理论上来说,lucene是可以做到这样组合排序的;所以我就试一下了;package com.search5173.lucene.demo.sort;import java.io.IOException;import java原创 2012-05-17 09:15:09 · 3224 阅读 · 0 评论 -
Lucene Hack之通过缩小搜索结果集来提升性能 (1)
转载请注明来源:http://www.iteye.com/topic/78884一、缘起Lucene在索引文件上G之后的搜索性能下降很严重,随便跑个搜索就要上0.x秒。如果是单线程搜索那么性能尚可,总可以在0.x秒返回结果,如果是Web式的多线程访问,由于Lucene的内部机制导致数据被大量载入内存,用完后立即丢弃,随之引起JVM频繁GC,性能极其低下,1-10秒的长连接比比皆是。这也转载 2012-05-18 09:09:13 · 656 阅读 · 0 评论 -
Twitter搜索现在快3倍啦
在2010年春季,为了服务不断增长的流量、提升最终用户的响应时延和服务的可用性、有能力快速开发新的搜索功能,搜索团队开始重写我们的搜索引擎。作为不努力的一部分,我们发布了新的实时搜索引擎,将后端从Mysql迁到了lucene的实时版。上周我们发布新的前端,替换了RubyonRails版:我们称之为Blender的Java服务器。我们很高兴地宣布这些改变使我们的搜索时延下降了3倍,同时也使得我们有能转载 2012-06-13 10:16:45 · 800 阅读 · 0 评论 -
lucene 3.4 contrib/facet 切面搜索
solr 有facet search ,BOBO也有;现在lucene3.4之后也有了,这个是贡献版本,在apache 官方的包里面有提供,这种功能对于分组统计和类别统计是一个很好的帮手;有了这个就不用羡慕solr了,不是我抗拒solr,只是像我们公司有时间让我们开发的情况下,我更偏向于底层点的api开发,lucene更得心应手。再说现在的solr没有近实时搜索,听说要4.0原创 2012-06-29 18:14:34 · 2697 阅读 · 1 评论 -
Lucene Revolution 2012
I attended Lucene Revolution 2012 in Boston, MA on May 9-10, 2012. This was my third one, having attended the first one in 2010 (also in Boston) and then Barcelona in 2011. Lucid Imagination, the ma转载 2012-08-02 12:11:26 · 892 阅读 · 0 评论 -
lucene NumericUtils
主要涉及几个类NumericRangeQuery 数值型检索类,含(NumericRangeTermEnum)数值型词项迭代器NumericUtils 索引和检索时,数值型运算类NumericTokenStream 索引时解析数值型字段的类NumericField 一、核心函数1.1 数值转换转载 2014-04-04 17:01:37 · 1150 阅读 · 0 评论