lucene&爬虫
落叶翩翩
这个作者很懒,什么都没留下…
展开
-
Heritrix3.x蜘蛛配置&使用
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件,流程图所示。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根转载 2013-09-11 15:22:11 · 3288 阅读 · 1 评论 -
Windows下Nutch的配置
Nutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 Nutch可以分为2个部分:抓取部分crawler 抓取程序抓取页面并把抓取回来的数据做成反向索引搜索部分searcher。 搜索程序则对反向索引搜索回答用户的请求。 Nutch的爬虫有两种方式爬转载 2013-09-11 13:08:26 · 953 阅读 · 0 评论 -
heritrix 下载、安装、配置、以及简单开发
heritrix下载及配置一、下载:到www.sourceforge.net网站搜索heritrix,然后分别下载下来heritrix-1.14.0-RC1.zip,heritrix-1.14.0-RC1-src.zip二、配置 .在非开发环境下配置的步骤 1.解压heritrix-1.14.0-RC1.zip,假设解压到了c盘根目录下并把解压后的文件转载 2013-09-11 13:47:48 · 2478 阅读 · 0 评论 -
鄙人自制csdn博客爬虫
开发环境eclipse for jee+jdk7+tomcat7lucene4.4+crawler4j3.5截图如下: 付源码地址:原创 2013-09-13 00:30:18 · 1238 阅读 · 0 评论 -
crawler4j爬虫--爬取技巧总结(鄙人之见)
阅读对象:有一定全文检索(最好会lucene)的理论和实践基础的同学。对全文检索不是太了解的请参考我前几篇博客首先,我想爬取图片,让自己的搜索 可以爬取图片,首先找一个图片网站我选取的一个网站是http://sc.chinaz.com/ 。为什么不选取百度图片或者相约久久,因为这两个网站的html太复杂了。因此选择这个网站进行全站爬取。环境:firefox(firebug插原创 2013-09-15 19:24:36 · 5778 阅读 · 0 评论 -
solr查询语法
2、查询语法 solr的一些查询语法 1.1. 首先假设我的数据里fields有:name, tel, address 预设的搜寻是name这个字段, 如果要搜寻的数据刚好就是 name 这个字段,就不需要指定搜寻字段名称. 1.2. 查询规则: 如欲查询特定字段(非预设字段),请在查询词前加上该字段名称加 “:” (不包含”号) 符号, 例如: address转载 2016-05-04 11:29:12 · 2691 阅读 · 0 评论 -
solr suggest 词典配置
suggest org.apache.solr.spelling.suggest.Suggester org.apache.solr.spelling.suggest.tst.TSTLookupFactory name1 0.005原创 2016-08-16 09:14:57 · 2046 阅读 · 0 评论