应对网络爬虫的解决方法

最新推荐文章于 2024-09-11 00:00:00 发布

yajie1010

最新推荐文章于 2024-09-11 00:00:00 发布

阅读量222

点赞数

文章标签：网络应用网络协议 Flash Google 算法

不遵守robots.txt里协议的爬虫确实有点过分，每秒并发量太大，对服务器是一种致命的消耗。

我测试过tomcat6.018这个版本的应用服务器，每秒一万并发的时候就Heap out of Memory了，不是我我的机器不行吧？嘻嘻，如果用来攻击那些小型的网站，真合适不过。不过没那心情，也没那意思。

说了这么多废话，怎么解决呢？很简单，首页做成flash格式的。

爬虫通过网页源码来解析，好像爬虫不会解析flash吧？嘿嘿

第二种方式，首页用JavaScript载入网页。如果爬虫能执行JavaScript，就没办法了吗？

尼尼，呵呵。

还有其他解决方案，暂时保密。O(∩_∩)O哈哈哈~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。