搜索引擎
wltao
这个作者很懒,什么都没留下…
展开
-
Java_ABC_7.连接Solr,查询数据
package solrj; import java.io.IOException; import java.net.MalformedURLException; import java.util.ArrayList; import java.util.Collect原创 2011-07-21 12:22:01 · 706 阅读 · 0 评论 -
Java_ABC_8.mmseg导入Solr
1. mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucen原创 2011-07-21 13:00:43 · 551 阅读 · 0 评论 -
Java_ABC_3.Lucene创建索引
package lucene; import java.io.File; import java.io.FileReader; import java.io.Reader; import java.util.Date; import org.apache.lucen原创 2011-07-21 12:05:53 · 242 阅读 · 0 评论 -
Java_ABC_4.Lucene搜索
package lucene; import java.io.File; import org.apache.lucene.document.Document; import org.apache.lucene.index.Term; import org.apach原创 2011-07-21 12:07:10 · 207 阅读 · 0 评论 -
利用 Heritrix 构建特定站点爬虫
本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展,介绍如何实现只抓取特定网站的页面。 通过本文,读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行,能够从零开始构建特定站点的专有爬虫,从而为网站增加全文转载 2011-10-18 22:36:13 · 889 阅读 · 0 评论 -
玩转Solr.1——solr的起步
1. 选择镜像站点,下载最新版Solr。笔者用的版本是3.3.0,因此以3.3.0为例 2. 将下载的apache-solr-3.3.0.rar解压到D盘,如D:/apache-solr-3.3.0, 进如solr主目录,选择example文件夹,运行start原创 2011-10-18 22:50:03 · 283 阅读 · 0 评论