搜索
yingbin920
这个作者很懒,什么都没留下…
展开
-
Lucene主要API介绍
Lucene搜索的api的类主要有4个 IndexSearcher ,Query(包括子类),QueryParser,Hits一:IndexSearcher是搜索的入口,他的search方法提供了搜索功能Query有很多子类, 各种不同的子类代表了不同的查询条件,下文详述QueryParser是一个非常通用的帮助类,他的作用是把用户输入的文本转换为内置的Query对象(大多数web搜索...原创 2012-06-04 09:28:36 · 105 阅读 · 0 评论 -
Solr的检索运算符
“:” 指定字段查指定值,如返回所有值*:*² “?” 表示单个任意字符的通配² “*” 表示多个任意字符的通配(不能在检索的项开始使用*或者?符号)² “~” 表示模糊检索,如检索拼写类似于”roam”的项这样写:roam~将找到形如foam和roams的单词;roam~0.8,检索返回相似度在0.8以上的记录。² 邻近检索,如检索相隔10个单词的”apache”和”jakarta”,”...原创 2012-06-21 14:47:20 · 116 阅读 · 0 评论 -
IK的整个分词处理过程
IK的整个分词处理过程首先,介绍一下IK的整个分词处理过程:1. Lucene的分词基类是Analyzer,所以IK提供了Analyzer的一个实现类IKAnalyzer。首先,我们要实例化一个IKAnalyzer,它有一个构造方法接收一个参数isMaxWordLength,这个参数是标识IK是否采用最大词长分词,还是采用最细粒度切分两种分词算法。实际两种算法的实现,最大...原创 2012-06-26 14:25:23 · 246 阅读 · 0 评论 -
<转>Solr Suggest实现搜索智能提示
智能提示简介搜索的智能提示目前是各大搜索的标配应用,主要作用是避免用户输入错误的搜索词,同时将用户引导到相应的关键词搜索上。Solr Suggestion智能提示模块作为一个应用广泛的搜索引擎系统,Solr内置了智能提示功能,它在Solr里叫做Suggest模块.该模块可选择基于提示词文本做智能提示,还支持通过针对索引的某个字段建立索引词库做智能提示。在诸多文档中都推荐使用基...原创 2012-06-27 10:15:12 · 345 阅读 · 0 评论 -
solr 对拼音搜索和拼音首字母搜索的支持
对于拼音和拼音首字母的支持,当你在搜商品的时候,如果想输入拼音和拼音首字母就给出商品的信息,怎么办呢? 实现方式有2种,但是他们其实是对应的。 1.用lucene实现。 1.建索引, 多建一个索引字段,即拼音和拼音首字母这2个字段。合并的一个字段。 (...原创 2012-06-27 13:52:56 · 383 阅读 · 0 评论 -
solr 索引库同步数据库
对于拼音和拼音首字母的支持,当你在搜商品的时候,如果想输入拼音和拼音首字母就给出商品的信息,怎么办呢? 实现方式有2种,但是他们其实是对应的。 1.用lucene实现。 1.建索引, 多建一个索引字段,即拼音和拼音首字母这2个字段。合并的一个字段。 (...原创 2012-06-27 14:01:48 · 255 阅读 · 0 评论 -
solr 百度相关搜索类似功能的实现
这个功能的实现有几种不同的思路。大概半个月前,我在网上查了相关内容,心里很凉。google里面从2009年到2011年都有人问这个问题。但是没有一个人回答。当网上都没人回答的时候就是尴尬的时候。后来吧,还好,总监是做搜索出身的。不懂就问呗。提出的方案大概有3套: 1。新建张表,然后这张表专门用来存放与相关搜索的字段。将表的数据导入到缓存中,每次从缓存中查询。...原创 2012-06-27 16:26:27 · 201 阅读 · 0 评论 -
庖丁(Paoding)分词的词典原理解析
Paoding分词过程中词典是相关重要的一环,其特性主要有:(1)多词典支持,词典功能区分;(2)词典加载入内存使用,使用预加载和Lazy Mode模式;(3)根据分词模式,对词典进行二次编译;(4)词典变更侦测,当词典文件发生变化时,可以重新加载词典。1.1 词典类型庖丁中有多种词典,每一种词典在分词过程中都不有同的意义。主要的词典及其功能如下:(1)V...原创 2012-07-03 10:14:08 · 295 阅读 · 0 评论 -
<转>庖丁解牛分词之自定义词库[自定义词典]
原链接: http://hi.baidu.com/stone_kings/item/fff2efd6db55df2b38f6f766 发现很久很久没更新了,尤其是这个模块,也就好久没进步了!学习如逆水行舟,不进则退!趁着还没到白首之际,应该多学习。首先,还是先贴出来参考来源,毕竟非原创。(1)、http://blog.csdn.net/askpp/archive/2009/09/08/4...原创 2012-07-03 10:21:51 · 163 阅读 · 0 评论 -
lucene 一些性能调优建议
lucene 排序Lucene默认按照相关度(score)排序,为了能支持其他的排序方式,比如日期,我们在add Field的时候,必须保证field被Index且不能被tokenized(分词),并且排序的只能是数字,日期,字符三种类型之一Lucene的IndexWriter调整IndexWriter提供了一些参数可供设置,列表如下 属性默认值说明...原创 2012-08-22 16:12:15 · 313 阅读 · 0 评论 -
Solr 学习(5) —- Solr查询语法和参数
2、查询语法 solr的一些查询语法 1.1. 首先假设我的数据里fields有:name, tel, address 预设的搜寻是name这个字段, 如果要搜寻的数据刚好就是 name 这个字段,就不需要指定搜寻字段名称. 1.2. 查询规则: 如欲查询特定字段(非预设字段),请在查询词前加上该字段名称加 “:” (不包含”号) 符号, 例如: addr...原创 2012-06-21 14:25:51 · 251 阅读 · 0 评论 -
Apache Solr schema.xml及solrconfig.xml文件中文注解
一、字段配置(schema)schema.xml位于solr/conf/目录下,类似于数据表配置文件,定义了加入索引的数据的数据类型,主要包括type、fields和其他的一些缺省设置。1、先来看下type节点,这里面定义FieldType子节点,包括name,class,positionIncrementGap等一些参数。name:就是这个FieldType的名称。class:指向org....原创 2012-06-21 10:55:28 · 77 阅读 · 0 评论 -
<转>LUCENE3.0 自学吧 4 TermDocs
利用TermDocs也是可以得到一些有用的结果。。。代码如下 [java] view plaincopypackage com.fpi.lucene.studying.myfirstlucene; import java.io.File; import java.io.IOException; import org.apache.luce...原创 2012-06-07 22:13:53 · 156 阅读 · 0 评论 -
<转>Lucene基本使用介绍
今天用了下Lucene,发现网上虽然也有不少介绍它的文档,不过很多都偏向介绍概念呀、设计或者是一些更为深入的东西,对于其入门使用的介绍性的文档并不多,就写了这么一篇。Lucene基本使用介绍 本文的目的不在于对Lucene的概念和设计这些进行介绍,仅在于介绍怎么样去使用Lucene来达到自己想要的几种常见的全文检索的需求,如果想深入了解Lucene的话本文不会带给你什么收获的。...原创 2012-06-04 10:50:54 · 89 阅读 · 0 评论 -
lucene索引word/pdf/html/txt文件及检索(搜索引擎)
因为lucene索引的时候是将String型的信息建立索引的,所以这里必须是将word/pdf/html等文件的内容转化问字符型。lucene的jar包自己去下载。首先是建立索引的代码:public class TextFileIndexer { public static void main(String[] args) throws Exception { ...原创 2012-06-04 14:59:46 · 110 阅读 · 0 评论 -
Lucene3参考资料
http://wenku.baidu.com/view/706542bafd0a79563c1e72ad.html Lucene3.0 使 用 教 程http://www.ibm.com/developerworks/cn/views/java/libraryview.jsp?sort_by=&show_abstract=true&show_all=&search_flag=&conten...原创 2012-06-05 09:46:27 · 99 阅读 · 0 评论 -
<转>用于Lucene的各中文分词比较
对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。单纯的中文分词的实现一般为按字索引或者按词索引。按字索引顾名思义,就是按单个字建立索引。按词索引就是按词喽,根据词库中的词,...原创 2012-06-05 09:58:38 · 95 阅读 · 0 评论 -
<转>lucene3.0中Field.Index, Field.Store,Field.TermVector详解
lucene在doc.add(new Field("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZED));Field有两个属性可选:存储和索引。通过存储属性你可以控制是否对这个Field进行存储;通过索引属性你可以控制是否对该Field进行索引。事实上对这两个属性的正确组合很重要。Field....原创 2012-06-06 14:49:22 · 95 阅读 · 0 评论 -
Lucene架构简单分析
Lucene简介Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包 。目前国内外已有很多基于Lucene的应用。相对其它开源的全文搜索(Egothor,Xapian,MG4J)来说,Lucene已经...原创 2012-06-06 15:30:32 · 77 阅读 · 0 评论 -
Lucene中Field类很重要
org.apache.lucene.demo.IndexFiles类中,使用递归的方式去索引文件。在构造了一个IndexWriter索引器之后,就可以向索引器中添加Doucument了,执行真正地建立索引的过程。遍历每个目录,因为每个目录中可能还存在目录,进行深度遍历,采用递归技术找到处于叶节点处的文件(普通的具有扩展名的文件,比如my.txt文件),然后调用如下代码中红色部分:stat...原创 2012-06-07 21:46:13 · 108 阅读 · 0 评论 -
<转>浅谈文档索引普遍原理<笔记>
--lvpei.cnblogs.com搜索引擎普遍采用全文检索技术,而其处理的大规模文档本身都是非结构或半结构化信息,文档索引技术是信息全文检索和快速查询的基础。一、索引概述索引是一种数据存储的组织结构。索引器用来完成信息索引的建立,维护和管理索引的功能。倒排索引是一种高效率的索引组织方式,采用字或词作为索引项,能够很好的支持多种检索模型,提供高性能的检索。搜索引擎的索引使用...原创 2012-06-07 21:49:40 · 80 阅读 · 0 评论 -
<转>Lucene里经常被聊到的几个话题
lvpei.cnblogs.com.自己总结的Lucene熟悉而暧昧的几个问题。1、索引及搜索的概念将原始数据处理成一个高效的交差引用的查找结构以便于快速的搜索。索引结构是指快速随机访问存于其内部的关键词的数据结构。搜索是在一个索引中查找单词来找出它们所出现的文档的过程。支持单个和多个词汇的查询,短语查询,通配符,结果分级和排序。2、lucene的核心类核心索引类...原创 2012-06-07 21:54:39 · 95 阅读 · 0 评论 -
百度GOOGLE的用户鼠标行为分析<转>
转自:http://www.20ju.com/content/V27723.htm3年以前,一个统计分析领域的专家曾经告诉笔者,GOOGLE和百度,在技术上足够做到分析你是一个男人还是一个女的,当时听起来感觉几乎不可能的事情。 07年在搜索引擎研究领域出现过一张并不是很清晰的Google和百度的鼠标点击热图(如下),图的出处未知,让笔者很是惊讶,从图中可以看出Google和百度用户行为...原创 2012-08-29 09:37:54 · 276 阅读 · 0 评论