nutch
yiluoAK_47
这个作者很懒,什么都没留下…
展开
-
nutch在eclipse上运行时错误
solrUrl is not set, indexing will be skipped...crawl started in: crwalrootUrlDir = urlsthreads = 10depth = 2solrUrl=nulltopN = 2Injector: starting at 2012-04-20 14:39:30Injector: crawl转载 2013-11-25 10:30:16 · 1734 阅读 · 0 评论 -
抓取网页碰到500错误时:User Agent
当你写蜘蛛程序的时候,会发现很多网页会碰到500错误,这个问题我初次碰到,把我好折磨,好不容易解决了,原来如此简单。当使用URL url = new URL("http://www.google.cn/search?hl=zh-CN&newwindow=1&q=北京&start=0&sa=N");url.openStream() 时候发现报403访问拒绝错误,是由于谷歌对java 程序转载 2013-12-18 09:54:16 · 4054 阅读 · 0 评论