lucene
zhujyy110
这个作者很懒,什么都没留下…
展开
-
Nutch1.2二次开发(关于中文分词)
前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛。但不能保证完全没有错误,如有发现希望大家指正。目录:1.Nutch1.2二次开发详细攻略(一)【图文】------Windows平台下Cygwin环境的搭建2.Nutch1.2二次开发详转载 2012-07-24 18:33:29 · 707 阅读 · 0 评论 -
Nutch学习文章大全
1)Nutch1.2二次开发详细攻略 (1)Windows平台下Cygwin环境的搭建 地址:http://www.cnblogs.com/streamhope/archive/2011/07/27/2118397.html (2)Windows平台下Nutch1.2的搭建 地址:http://www.cnblogs.com/streamhope/archive/2011/原创 2012-07-24 19:24:39 · 670 阅读 · 0 评论 -
读取nutch爬取的数据内容
package org.apache.nutch.util; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop原创 2012-07-26 14:45:56 · 1737 阅读 · 0 评论 -
Nutch中文分词(庖丁解牛)
1 中文分词介绍 中文分词是在做检索类系统时需要重点考虑的一个因素。Nutch的本土化过程也需要更改对中文分词的支持。目前,Nutch中文分词方式大致有两种方式:一是修改源代码。这种方式是直接对Nutch分词处理类进行修改,调用已写好的一些分词组件进行分词。二是编写分词插件。这种方式是按照Nutch定义的插件编写规则重新编写或者添加中文分词插件。以上两种方式都是可取的。目前,由于开原创 2012-07-24 20:01:41 · 1439 阅读 · 0 评论 -
javax.xml.parsers.DocumentBuilderFactory.setXIncludeAware(Z)V错误解决办法
Struts2+Tiles2,jdk1.5,启动tomcat服务时报错,错误代码如下:StandardContext[]Exception sending context initialized event to listener instance of class org.apache.struts2.tiles.StrutsTilesListenerjava.lang.NoSuchMe原创 2012-10-29 17:15:21 · 8686 阅读 · 1 评论 -
索引文件结构
索引文件结构Lucene使用文件扩展名标识不同的索引文件,文件名标识不同版本或者代(generation)的索引片段(segment)。如.fnm文件存储域Fields名称及其属性,.fdt存储文档各项域数据,.fdx存储文档在fdt中的偏移位置即其索引文件,.frq存储文档中term位置数据,.tii文件存储term字典,.tis文件存储term频率数据,.prx存储term接近度数据,...原创 2012-06-04 18:30:44 · 192 阅读 · 0 评论 -
lucene不足
Lucene是开放源代码的全文搜索引擎工具包,凭借着其强劲的搜索功能和简单易用的实现,在国内已经很普及,甚至一度出现了言搜索必称Lucene的盛景。上个月Lucene的开发团队发布了 Java Lucene 2.3.1 ,相信很多朋友们都用上了。在国内对Lucene的介绍可以分为3块儿:第一类是:以车东 的Lucene:基于Java的全文检索引擎简介 为代表的基础入门介绍;第二类是Luce...原创 2012-02-19 17:35:57 · 111 阅读 · 0 评论