不遵守robots.txt里协议的爬虫确实有点过分,每秒并发量太大,对服务器是一种致命的消耗。
我测试过tomcat6.018这个版本的应用服务器,每秒一万并发的时候就Heap out of Memory了,不是我我的机器不行吧?嘻嘻,如果用来攻击那些小型的网站,真合适不过。不过没那心情,也没那意思。
说了这么多废话,怎么解决呢?很简单,首页做成flash格式的。
爬虫通过网页源码来解析,好像爬虫不会解析flash吧?嘿嘿
第二种方式,首页用JavaScript载入网页。如果爬虫能执行JavaScript,就没办法了吗?
尼尼,呵呵。
还有其他解决方案,暂时保密。O(∩_∩)O哈哈哈~