lucene
will_guofeng
这个作者很懒,什么都没留下…
展开
-
Lucene对mysql创建索引
由于对lucene比较感兴趣,本人在网上找了点资料,终于成功地用lucene对mysql数据库进行索引创建并成功搜索,先总结如下: 首先介绍一个jdbc工具类,用于得到Connection对象:[java] view plaincopyimport java.sql.Connection; import转载 2014-06-24 16:35:22 · 2145 阅读 · 0 评论 -
Lucene同义词分词器简单实现
package com.yuan;import java.io.IOException;import java.io.Reader;import java.util.HashMap;import java.util.Map;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.Tok原创 2014-07-08 17:05:33 · 2825 阅读 · 2 评论 -
Ik分词添加停用词以及扩展词步骤
直接在src下建立文件就OK: IK Analyzer 扩展配置 extword.dic;singleword.dic stopword.dic原创 2014-06-17 17:01:57 · 4725 阅读 · 3 评论 -
Lucene同义词(一)
package com.yuan;import java.io.IOException;import java.util.HashMap;import java.util.Map;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.synonym.SynonymFilterFac原创 2014-07-07 17:02:31 · 1706 阅读 · 0 评论 -
lucene对文件建立索引之二
package com.mylucene;import java.io.BufferedReader;import java.io.File;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException;import org.apache.lucene.analysi原创 2014-06-16 17:03:54 · 708 阅读 · 0 评论 -
lucene定义自己的分词器将其分成单个字符
问题描述:将一句话拆分成单个字符,并且去掉空格。package com.mylucene;import java.io.IOException;import java.io.Reader;import org.apache.lucene.analysis.Tokenizer;import org.apache.lucene.analysis.tokenattributes.Ch原创 2014-06-13 23:55:47 · 2433 阅读 · 0 评论 -
lucene对数据库建立索引
package com.mysqindex;import java.io.File;import java.io.IOException;import java.util.Iterator;import java.util.LinkedList;import java.util.Map;import java.util.Map.Entry;import org.apache.l原创 2014-07-03 10:14:18 · 708 阅读 · 0 评论 -
lucene对文件做简单的索引
package com.mylucene;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.io.Reader;import java.nio.CharBuffer;import java.util.ArrayList;import java.util.List;原创 2014-06-12 16:58:09 · 995 阅读 · 0 评论 -
lucene常见的分词器
Lucene自带了几个分词器WhitespaceAnalyzer,SimpleAnalyzer,StopAnalyzer,StandardAnalyzer,ChineseAnalyzer,CJKAnalyzer等。前面三个只适用于英文分词,StandardAnalyzer对可最简单地实现中文分词,即二分法,每个字都作为一个词,这样分出来虽然全面,但有很多缺点,比如,索引文件过大,检索时速度慢等。C原创 2014-06-10 23:27:54 · 868 阅读 · 0 评论 -
中文分词技术
一、 为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。二、转载 2014-10-27 11:46:28 · 952 阅读 · 0 评论