爬虫相关
wphnudt
这个作者很懒,什么都没留下…
展开
-
larbin运行参数及配置文件详解
通过./larbin执行larbin。默认情况下其配置文件为larbin.conf,可通过参数 -c filename 设置自己的配置文件。 可通过 -scratch 参数让larbin重新开始抓取网页。 配置文件larbin.conf文件各项简介:(修改配置文件不需要重新编译larbin) ##########################原创 2009-09-21 18:33:00 · 1288 阅读 · 0 评论 -
ubuntu下编译、运行larbin
larbin是一个法国人写的网络爬虫,在一台普通pc机上,只要带宽足够,可以一天爬500万网页。下面简单介绍在Ubuntu下的编译运行。 通过新立得或者命令行(sudo apt-get install softname)安装gcc、g++、make、xutils-dev。 注释掉adns下internal.h的569-571行。 下载larbin(原创 2009-09-21 11:19:00 · 2155 阅读 · 3 评论 -
静态变量真是一个好东西
想把NCrawler的内部信息全部输出,因为已经通过VS2010对其进行了并行化,就意味着同时有数个NCrawler在同时运行。要统计每个爬虫解析获得的url数、下载队列中的域名url数、下载成功及失败的url数。这个时候就想起了静态变量了,用在这个地方太合适不过了。仅仅需要定义四个不同的静态变量用以记录上面关心的几个数字,不管并行都少个爬虫都轻松搞定,而且静态变量合适线程安全的。So goo原创 2010-03-12 16:54:00 · 736 阅读 · 0 评论 -
对爬虫下一步的打算
在临时解决好robots文件的bug后,发现爬虫在爬行数小时后依然会出错,且该错误原因不明,从定位的出错代码无法看出任何错误相关信息,初步判断该bug应该是与并行化有关。 对于稳定爬虫拟采取以下三个方式: 目前的爬虫是基于NCrawler的dotnet3.5版,利用vs2010的并行化支持,对其并行化之后实现的。该方法实现了对不同网站的并行爬行,大大提高了爬虫的效原创 2010-03-12 16:56:00 · 1261 阅读 · 1 评论