nutch 提高搜索精度

   private  boolean  getTextHelper(StringBuffer  sb,  Node  node,   
    boolean  abortOnNestedAnchors,
    int  anchorDepth)  {
    if  ("script".equalsIgnoreCase(node.getNodeName()))  {
    return  false;
    }
    if  ("style".equalsIgnoreCase(node.getNodeName()))  {
    return  false;
    }
    if  (abortOnNestedAnchors  &&  "a".equalsIgnoreCase(node.getNodeName()))  {
    anchorDepth++;
    if  (anchorDepth  1)
    return  true;
    }
    if  (node.getNodeType()  ==  Node.COMMENT_NODE)  {
    return  false;
    }

    if  (node.getNodeType()  ==  Node.TEXT_NODE)  //node是解析下来的网页源文件所包含的内容

    //Node.TEXT_NODE:节点属于文本节点<body><div><a  href><td>等标签
    //  cleanup  and  trim  the  value   
    String  text  node.getNodeValue();  //获取节点里面的文本内容,相当与去掉HTML标签

   
    text  text.replaceAll("//s  +",  ");
    text  text.replace("【",  "");
    text  text.replace("】",  "");
    text  text.replace("[",  "");
    text  text.replace("]",  "");
    text  text.replace("|",  "");
    text  text.replace("┊",  "");
    text  text.replace("?",  "");
    text  text.replace("?",  "");
    text  text.replace("?",  "");
    text  text.replace("|",  "");
    text  text.replace("、",  "");
    text  text.replace("-",  "");
    text  text.replace("~",  "");
    text  text.replace("!",  "");
    text  text.replace("@",  "");
    text  text.replace("#",  "");
    text  text.replace("$",  "");
    text  text.replace("^",  "");
    text  text.replace("*",  "");
    text  text.replace("(",  "");
    text  text.replace(")",  "");
    text  text.replace("%",  "");
    text  text.replace(">",  "");
    text  text.replace("?",  "");
    text  text.replace("%",  "");

    text  text.trim();

    temp  node.getParentNode().toString();  //获取父节点的标签

    if  (text.length()  &&  temp.indexOf("A:")  ==  -1)  //如果属于<a  href>,则过滤...

    if  (sb.length()  0)  sb.append('  ');
    sb.append(text);
    }
    }
    boolean  abort  false;
    NodeList  children  node.getChildNodes();
    if  (children  !=  null)  {
    int  len  children.getLength();
    for  (int  0;  len;  i++)  {
    if  (getTextHelper(sb,  children.item(i),   
    abortOnNestedAnchors,  anchorDepth))  {
    abort  true;
    break;
    }
    }
    }
    return  abort;
}

ant  编译时,提示两个错误,8个警告

2个错误分别是:
temp  node.getParentNode().toString();     
  if  (text.length()  &&  temp.indexOf("A:")  ==  -1)   
都是提示找不到temp这个符号

8个警告分别是
    text  text.replace("?",  "");
警告:编码UTF-8的不可映射字符。
 
出现错误的问题在于temp未declared,感谢坛子里的好友的帮助。
改:
String  temp  node.getParentNode().toString(); 
OK了。
我输入string时输入小写了,晕,用windows用习惯了,唉,错误百出啊,呵呵
警告的问题这个是编码的原因造成的,修改build.xml即可,我已经解决了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值