应对网络爬虫的解决方法

不遵守robots.txt里协议的爬虫确实有点过分,每秒并发量太大,对服务器是一种致命的消耗。

我测试过tomcat6.018这个版本的应用服务器,每秒一万并发的时候就Heap out of Memory了,不是我我的机器不行吧?嘻嘻,如果用来攻击那些小型的网站,真合适不过。不过没那心情,也没那意思。

说了这么多废话,怎么解决呢?很简单,首页做成flash格式的。

爬虫通过网页源码来解析,好像爬虫不会解析flash吧?嘿嘿

第二种方式,首页用JavaScript载入网页。如果爬虫能执行JavaScript,就没办法了吗?

尼尼,呵呵。

还有其他解决方案,暂时保密。O(∩_∩)O哈哈哈~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值