arachnode.net终于跑起来了

    虽然我的NCrawler已经跑的很稳定了,但是毕竟这是一个正在开发的版本,还是想跑跑arachnode.net。毕竟这个爬虫是目前dot net下最完善的爬虫之一(应该是之一吧!不过别的我还真不清楚。)看看它的客户就知道多厉害了:NASA,FBI,MIT,斯坦福,哈佛,思科……

    目前官网能够下载的arachnode.net版本是2.0的demo。没有细看,但是爬虫这一部分没有看到源码,就看到一个dll。所以我还是用的去年下载的1.2版,这个有完整的源码,虽然功能可能弱点。花了两天功夫才让它爬了起来,以下是配置的完整过程:

  • 首先按照百度百科“Arachnode.net”词条的内容把该执行的斗志行了,该打开的都打开了。
  • 在表“dbo.CrawlRequests”中添加需要怕的网站信息。注意起始地址“AbsoluteUri”字段有约束条件,不能包含"http://www",但是必须包含“http://”,且至少含有三个“/”。
  • 在表“cfg.Configuration”中指定“DownloadedFilesDirectory”、“DownloadedImagesDirectory”、“DownloadedWebPagesDirectory”、“LuceneDotNetIndexDirectory”四个字段的值,都是本地磁盘目录路径。
  • 在表“cfg.CrawlActions”中包含“LuceneDotNetIndexDirectory”的“Settings”行中给“LuceneDotNetIndexDirectory=”后面加上本地磁盘路径。不知道是否必须和上面的LuceneDotNetIndexDirectory一致。

可以开始跑了!!!哈哈

但是我看到还有console中还有红色字体报错……

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值