问题相关:“http.agent.name”
报错如图所示:
跟网上的答案一样,都是修改nutch-site.xml的value值,因为默认是空的,所以汇报这个错误。
区别在于
看你的nutch怎么来的,如果你只是单步爬虫,直接解压的nutch-bin.tar.gz的话,在执行crawl的时候,修改的是nutch/conf/nutch-site.xml中的agent的value值,注意:官网建议不要修改nutch-default.xml,是将其中http.agent.name属性copy到nutch-site.xml当中,这样site.xml会覆盖default.xml,所以是修改nutch-site.xml。
但如果你需要分布式爬虫的deploy文件夹,就需要通过ant自己编译nutch源码,这时候crawl实在nutch/runtime/local目录下执行的,所以要修改当前目录下的conf/nutch-site.xml才能爬取成功。
成功的前提
保证solr正常启动。
最后爬到的数据在solr中选择collection1下的query并且执行查询就能看到了。