Nutch中问支持bug修复

问题描述:

由于Nutch不是原生支持中文的,开发者没有考虑到中文的分词会存在token的交叉重叠的情况,导致在根据用户输入查询串的token获取页面summary时出现:StringIndexOutOfBoundsException的异常。比如:教育方针可能出现这样的分词教育方针教育方针,这几个token就交叉重叠了。

网上有bupo.Jung写的另外一篇文章,我也进行过测试,但是其只能解决他所举的例子“比如:“可爱的小女生”可能出现这样的分词“可爱”、“小女”、“女生”,其中“小女”和“女生”这两个token就交叉重叠了。“这种非全包含的叠词情况。最后我会贴出他的解决方案。

错误重现

java.lang.RuntimeException: java.util.concurrent.ExecutionException: java.lang.StringIndexOutOfBoundsException: String index out of range: -4at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:316)

at org.apache.nutch.searcher.NutchBean.getSummary(NutchBean.java:357)

at org.apache.nutch.searcher.NutchBean.main(NutchBean.java:429)

Caused by: java.util.concurrent.ExecutionException: java.lang.StringIndexOutOfBoundsException: String index out of range: -4

at java.util.concurrent.FutureTask$Sync.innerGet(FutureTask.java:222)

at java.util.concurrent.FutureTask.get(FutureTask.java:83)

at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:311)

... 2 more

Caused by: java.lang.StringIndexOutOfBoundsException: String index out of range: -4

at java.lang.String.substring(String.java:1937)

at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:190)

at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:275)

at org.apache.nutch.searcher.FetchedSegments$SummaryTask.call(FetchedSegments.java:65)

at org.apache.nutch.searcher.FetchedSegments$SummaryTask.call(FetchedSegments.java:1)

at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:303)

at java.util.concurrent.FutureTask.run(FutureTask.java:138)

at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908)

at java.lang.Thread.run(Thread.java:619)
不返回文在和url等详细信息。

分析:

从错误日志中可以跟踪到错误的根源为

org.apache.nutch.summary.basic.BasicSummarizer.getSummary

也就是

nutch/src/plugin/summary-basic/src/java/org/apache/nutch/summary/basic/BasicSummarizer.java

文件中的188行开始的如下代码:

if(highlight.contains(t.term())) {

excerpt.addToken(t.term());

//在连个token重叠的情况下,会使得offset>t.startOffset()

excerpt.add(newFragment(text.substring(offset, t.startOffset())));//这就是异常的地方当offset>t.startOffset()就会出错。

excerpt.add(newHighlight(text.substring(t.startOffset(),t.endOffset())));

offset = t.endOffset();

endToken = Math.min(j +sumContext, tokens.length);

所以把代码修改为:(可以将while部分全部修改,也可以改部分)

while((j < endToken) && (j - startToken <sumLength)) {

Token t = tokens[j];

if(highlight.contains(t.term())) {

excerpt.addToken(t.term());

if(offset<t.startOffset()){

excerpt.add(newFragment(text.substring(offset, t.startOffset())));

excerpt.add(newHighlight(text.substring(t.startOffset(),t.endOffset())));

}

if(offset>=t.startOffset()){

if(offset<t.endOffset()){

excerpt.add(newHighlight(text.substring(offset,t.endOffset())));

}

offset = Math.max(offset, t.endOffset());

endToken = Math.min(j +sumContext, tokens.length);

}

j++;

}

同时还要将下面的

if(j<tokes.length){

excerpt.add(new Fragment(text.subString(offset,tokens[j].endOffset())));

}

的修改为

if(j<tokes.length){

if(offset< tokens[j].endOffset()){

excerpt.add(new Fragment(text.subString(offset,tokens[j].endOffset())));

}

}

重新编译,在nutch/目录下运行ant

到此修复结束。

下面是的bupo.Jung解决方案

文件中的188行开始的如下代码:

if(highlight.contains(t.term())) {

excerpt.addToken(t.term());

//在连个token重叠的情况下,会使得offset>t.startOffset()

excerpt.add(newFragment(text.substring(offset, t.startOffset())));//我是异常,我自责

excerpt.add(newHighlight(text.substring(t.startOffset(),t.endOffset())));

offset = t.endOffset();

endToken = Math.min(j +sumContext, tokens.length);

修改为:

if(highlight.contains(t.term())) {

excerpt.addToken(t.term());

//在连个token重叠的情况下,会使得offset>t.startOffset()

//bupo changed the code to fix the chinese token overlap 2010.12.15

if(offset < t.startOffset()){

excerpt.add(newFragment(text.substring(offset, t.startOffset())));

excerpt.add(newHighlight(text.substring(t.startOffset(),t.endOffset())));

}else{

excerpt.add(newHighlight(text.substring(offset,t.endOffset())));

}//bupo

}

重新编译,在nutch/目录下运行ant,在nutch/build/summary-basic/目录下生成了

summary-basic.jar,把它复制到nutch/plugins/summary-basic/目录下覆盖原来的文件。

到此修复介绍。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值