yyunix-CSDN博客

原创使用Lucene的highlight包高亮显示检索关键字

在Lucene的org.apache.lucene.search.highlight包中提供了关于高亮显示检索关键字的工具。使用百度、Google搜索的时候，检索结果显示的时候，在摘要中实现与关键字相同的词条进行高亮显示，百度和Google指定红色高亮显示。需要的包有lucene-core-3.4.0.jar，IKAnalyzer3.2.8.jar，lucene-highlight

2011-11-08 15:46:28 4935 2

原创 Filter解决servlet接收前台传的中文字符乱码问题

在开发jsp项目的时候，通常会遇到从前台传的值在后台servlet接收的时候是乱码，即使在jsp页面上设置了字符的编码格式。解决方法有很多种，有一种方法是给每一个request设置字符集，不过感觉很麻烦。设置字符集方法String keyWords = new String(request.getParameter("keyWords").trim().getBytes("iso-

2011-11-08 09:58:52 980

原创使用htmlparser简单抓取京东图书信息存入数据库的小例子

在学习lucene的时候需要很大的数据，很大的数据怎么来，不可能手工一点输入，从网上找了个方法，抓取数据。我把目标锁定在了京东商城的图书信息。下面是我抓取图书信息的一个简单例子，写的不是特别严谨，但对我学习来说足够了。如果每个页面都有效的话完全能达到80万的数据。我把抓到的信息存入我设计的数据库中。在处理过程中，把处理好的网址信息以及出错信息存入e:/360book/book1.txt，使用前

2011-11-07 09:03:46 1457 1

原创 lucene使用IKAnalyzer3.2.8中文分词器进行索引的一个小例子

使用IKAnalyzer3.2.8中文分词器进行索引，并进行搜索的一个小例子。例子需导入IKAnalyzer3.2.8.jar包以及lucene相关的包，例子中我用的lucene包为lucene-core-3.4.0.jar。package com.ik;import org.apache.lucene.analysis.Analyzer;import org.apache.lu

2011-11-07 08:29:59 1920

原创 lucene使用PhraseQuery设置slop进行短语查询

所谓PhraseQuery,就是通过短语来检索。例如现在有一个字符串，“the quick brown fox jumped over the lazy dog”，我们不知道其中的精确的短语，我们仍然可以通过短语“quick”、"fox"来查找文档。slop就是从一个词到另一个词的距离。下面是一个模仿lucene in action 第二版的一个例子。package com.cn;

2011-10-20 10:06:01 2868

原创 lucene中QueryParser的使用查询示例

在Lucene in action第2版中，QueryParser用的构造方法是QueryParser parser = new QueryParser(String field, Analyzer analyzer)我在lucene3.4中找不到这个方法，我用的是Que

2011-10-19 10:42:16 4079

原创 lucene利用sort对查询结果进行排序示例

利用sort对查询结果进行排序示例对于要排序的字段，在索引的时候可以Field.Index.NOT_ANALYZEDpackage com.cn;import org.apache.lucene.analysis.standard.StandardAnalyz

2011-10-18 12:56:26 2393

原创 lucene通过修改boost值改善index索引

并不是所有的Document和Field是平等创建的。Document增量是个使得这种需求能够简单实现的一个特征。默认情况下，所有的Document都没有增量，他们都有相同的增量因数1.0。通过改变某个Document的增量因数，可以让Lucene认为它比索引中的其他Docume

2011-10-18 09:46:52 1217

原创 lucene对index索引中的document进行修改示例

示例比较简单，就是简单对索引中的一个存在的document进行内容的修改。package com.cn;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucen

2011-10-18 08:59:51 738

原创 lucene删除索引中的Document示例

下面的实例是删除索引中的document的实例package com.cn;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.D

2011-10-17 12:34:27 1011

原创搜索引擎lucene入门程序示例

下面是我学习lucene3.4入门时按照lucene in action 第二版改写的一个例子。首先要导入lucene-core-3.4.0.jar包。package com.cn;import org.apache.lucene.analysis.stand

2011-10-17 10:50:37 900 1

原创把字符串写入文本文件，在结尾追加内容

先把字符串写入文件，在结尾追加内容，利用的是printWriter.println(String s);package com.file;import java.io.File;import java.io.FileWriter;import java.io.

2011-10-11 14:02:56 4073 1

原创利用htmpParser获取网页内容以及网页上的图片地址

一下代码是获取sina首页的内容package com;import org.htmlparser.Parser;import org.htmlparser.util.NodeList;public class Html { public static voi

2011-10-11 11:39:42 949 1

yyunix的专栏