nutch修改部分功能

1、修改
F:\nutch\trunk\nutch_hbase_mysql\nutch_hbase\src\java\org\apache\nutch\fetcher\FetcherReducer
            /*
          * 多数站点都是只允许百度、google等搜索引擎抓取的,所以会在robots.txt里限制其他爬虫。 
nutch自然是会遵循robots协议的,但是我们可以通过修改nutch源码来绕过限制。
2014-12-18
zhued
          */
            /*  if (!rules.isAllowed(fit.u.toString())) {
              // unblock
              fetchQueues.finishFetchItem(fit, true);
              if (LOG.isDebugEnabled()) {
                LOG.debug("Denied by robots.txt: " + fit.url);
              }
              output(fit, null, ProtocolStatusUtils.STATUS_ROBOTS_DENIED,
                  CrawlStatus.STATUS_GONE);
              continue;
            }*/




2、添加:
\src\plugin\protocol-http\src\java\org\apache\nutch\protocol\http\HttpResponse


      String userAgent = http.getUserAgent();
  //添加特例“21dianyuan.com”,解决报403错误问题。
      if(url.toString().contains("21dianyuan"))
      {
     userAgent="Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36";      
      }
 
 
3、
\src\plugin\parse-savedata\src\java\org\apache\nutch\parse\savedata\pojo\GetConfService
读取数据库xml格式为utf-8
在cygwin的话设置为gbk
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值