刚刚遇到的一个问题:多个网站同时抓取

  首先,nutch是可以同时抓取多个网站的,只要在列表里面指定就可以了,在这里遇到一个问题:错误提示如下:
070517 140633 fetch of http://www.21cn.com/ failed with: java.lang.Exception: java.net.SocketTimeoutException: connect timed out
070517 140633 fetch of http://www.21cn.com/ failed with: java.lang.NoClassDefFoundError: org/cyberneko/html/parsers/DOMFragmentParser
Exception in thread "fetcher0" java.lang.NoClassDefFoundError: org/cyberneko/html/parsers/DOMFragmentParser
        at org.apache.nutch.parse.html.HtmlParser.parseNeko(HtmlParser.java:230)        at org.apache.nutch.parse.html.HtmlParser.parse(HtmlParser.java:213)
        at org.apache.nutch.parse.html.HtmlParser.getParse(HtmlParser.java:156)
        at org.apache.nutch.fetcher.Fetcher$FetcherThread.handleFetch(Fetcher.java:254)
        at org.apache.nutch.fetcher.Fetcher$FetcherThread.run(Fetcher.java:204)
070517 140635 fetch of http://www.gdsq.org.cn/ failed with: java.lang.Exception: java.net.SocketTimeoutException: Read timed out
070517 140635 fetch of http://www.gdsq.org.cn/ failed with: java.lang.NoClassDefFoundError: org/cyberneko/html/parsers/DOMFragmentParser
Exception in thread "fetcher3" java.lang.NoClassDefFoundError: org/cyberneko/htm

问题根源:是因为biuld文件夹里面的有些类是w n do w s 下面编译过来的,所以在lin x 用an t 编译的
时候没有覆盖掉,所以就出现了这个错误
解决方法:把biuld文件夹删除,重新用an t 编译即可了,呵呵
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值