实现NUTCH中文分词的代码修改方法

最新推荐文章于 2024-08-29 10:53:37 发布

wudywind

最新推荐文章于 2024-08-29 10:53:37 发布

阅读量1.1k

点赞数

分类专栏：搜索引擎和算法文章标签： lucene null token input

搜索引擎和算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

实现NUTCH中文分词的代码修改方法

　　此处我修改的nutch版本是0.7.2

　　现在实现基本中文分词功能的代码和软件模块很多，性能也还可以，但是怎样将其应用到NUTCH中的方法介绍相对较少，下面我就实现NUTCH中文分词的NUTCH代码修改方法与步骤，抛砖引玉的介绍一下。

　　代码修改的切入点是通过对NUTCH处理中文的切分器Tokenizer的修改或者替换（这里介绍的是替换），使中文分词由单字切分变为词语切分。对于相关的NUTCH基本知识，我就不赘述了。因为NUTCH的检索功能基于Lucene，所以你用来替换的切分器必须满足Lucene的Tokenizer特征，最主要的是保证输入与输出相符，分词后输出的必须是Token流。幸运的是，现存的分词程序或软件模块基本上都满足此需要，即使有所偏差，一般通过对其输入输出的修改就可以满足需要。我前面提供给大家的那个分词程序就可以经过简单修改应用于NUTCH中。

　　设我们实现中文分词功能模块的主类名为MYTokenizer，package为org.apache.nutch.analysis.myt. MYTokenizer，将模块假如项目后，NUTCH代码修改如下：

　　（需要修改或新增的行后有注释，否则其它行只是为了定位，不修改）

　　一、修改org/apache/nutch/analysis下的NutchAnalysis.jj文件（此文件由JACC生成）

　　文件第33行附近：

　　import org.apache.nutch.searcher.Query.Clause;

　　import org.apache.lucene.analysis.StopFilter;

　　+import org.apache. nutch.analysis. myt. MYTokenizer; //新增此行，加入你的切分器

　　import java.io.*;

　　import java.util.*;

　　文件第8 1行附近：

　　PARSER_END(NutchAnalysis)

　　TOKEN_MGR_DECLS : {

　　/** use MYTokenizer to process cjk character */ //新增此行注释

　　private MYTokenizer myTokenizer = null; //新增此行

　　/** a global cjk token */ //新增此行注释

　　private org.apache.lucene.analysis.Token cjkToken = null; //新增此行，输出流

　　/** start offset of cjk sequence */ //新增此行注释

　　private int cjkStartOffset = 0; //新增此行

　　/** Constructs a token manager for the provided Reader. */

　　public NutchAnalysisTokenManager(Reader reader) {

　　文件第106行附近：

　　}

　　// chinese, japanese and korean characters

　　| <SIGRAM: <CJK> > //删除此行

　　| <SIGRAM: (<CJK>)+ > //新增此行（＃行）

　　//以下所有行均为新增，紧接上行代码（＃行）书写

　　{

　　/**

　　* use an instance of myTokenizer, myTokenizer, hold the maximum

　　* matched cjk chars, and cjkToken for the current token;

　　* reset matchedToken.image use cjkToken.termText();

　　* reset matchedToken.beginColumn use cjkToken.startOffset();

　　* reset matchedToken.endColumn use cjkToken.endOffset();

　　* backup the last char when the next cjkToken is valid.

　　*/

　　if(myTokenizer == null) {

　　myTokenizer = new MYTokenizer (new StringReader(image.toString()));

　　cjkStartOffset = matchedToken.beginColumn;

　　try {

　　cjkToken = myTokenizer.next();

　　} catch(IOException ioe) {

　　cjkToken = null;

　　}

　　}

　　if(cjkToken != null && !cjkToken.termText().equals("")) {

　　//sometime the myTokenizer returns an empty string, is it a bug?

　　matchedToken.image = cjkToken.termText();

　　matchedToken.beginColumn = cjkStartOffset + cjkToken.startOffset();

　　matchedToken.endColumn = cjkStartOffset + cjkToken.endOffset();

　　try {

　　cjkToken = myTokenizer.next();

　　} catch(IOException ioe) {

　　cjkToken = null;

　　}

　　if(cjkToken != null && !cjkToken.termText().equals("")) {

　　input_stream.backup(1);

　　}

　　}

　　if(cjkToken == null || cjkToken.termText().equals("")) {

　　myTokenizer = null;

　　cjkStartOffset = 0;

　　}

　　}

　　二、修改org/apache/nutch/searcher下的Summarizer.java文件（此处修改为提高搜索性能）

　　文件第189行附近：

　　将原代码段

　　if (highlight.contains(t.termText())) {

　　excerpt.addToken(t.termText());

　　excerpt.add(new Fragment(text.substring(offset, t.startOffset())));

　　excerpt.add(new Highlight(text.substring(t.startOffset(),t.endOffset())));

　　offset = t.endOffset();

　　endToken = Math.min(j+SUM_CONTEXT, tokens.length);

　　}

　　修改为：

　　if (highlight.contains(t.termText())) {

　　if(offset * 2 == (t.startOffset() + t.endOffset() )) { // cjk bi-gram

　　excerpt.addToken(t.termText().substring(offset - t.startOffset()));

　　excerpt.add(new Fragment(text.substring(t.startOffset() + 1,offset)));

　　excerpt.add(new Highlight(text.substring(t.startOffset() + 1 ,t.endOffset())));

　　}

　　else {

　　excerpt.addToken(t.termText());

　　excerpt.add(new Fragment(text.substring(offset, t.startOffset())));

　　excerpt.add(new Highlight(text.substring(t.startOffset() ,t.endOffset())));

　　}

　　offset = t.endOffset();

　　endToken = Math.min(j+SUM_CONTEXT, tokens.length);

　　}

　　为了提高运行效率，你的分词模块在运行中最好可以将词表读入内存。至于代码修改的原理，说来话长，容后再叙。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
实现NUTCH中文分词的代码修改方法

实现NUTCH中文分词的代码修改方法　　此处我修改的nutch版本是0.7.2　　现在实现基本中文分词功能的代码和软件模块很多，性能也还可以，但是怎样将其应用到NUTCH中的方法介绍相对较少，下面我就实现NUTCH中文分词的NUTCH代码修改方法与步骤，抛砖引玉的介绍一下。　　代码修改的切入点是通过对NUTCH处理中文的切分器Token
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。