爬虫
dfsq666
不积跬步无以至千里,不积小流无以成江海
展开
-
网站的爬虫与反爬
参考资料: 互联网网站的反爬虫策略浅析 http://robbinfan.com/blog/11/anti-crawler-strategypython爬虫对搜狗抓取微信搜索信息不全问题 http://www.oschina.net/question/2245966_173397当爬虫被拒绝时(Access Denied) http://blog.csdn.net/tlife/article转载 2015-05-06 00:29:58 · 1521 阅读 · 0 评论 -
爬虫笔记
编写爬虫时,最好通过该网站的API搜索信息,这是最快最准的。如果不行就拼凑连接自己解析。最后还是不行就只有最笨最慢最不稳定的方法爬网页解析。N多方法,最好使用API,最不好就爬网页。共有31款Java 网络爬虫开源软件,网址:http://www.oschina.net/project/tag/64/spider?lang=19&os=0&sort=view&p=1,其中Nutch和Herit原创 2015-06-09 16:08:25 · 516 阅读 · 0 评论