反爬
xiaozhanger
这个作者很懒,什么都没留下…
展开
-
分享一下赶集网的反扒策略
转载 2017-09-14 11:30:46 · 1521 阅读 · 0 评论 -
网络爬虫-验证码登陆
验证码是一种非常有效的反爬虫机制,它能阻止大部分的暴力抓取,在电商类、投票类以及社交类等网站上应用广泛。如果破解验证码,成为了数据抓取工作者必须要面对的问题。在访问某些网站时,我们最初只是需要提供用户名密码就可以登陆的,比如说豆瓣网,如果我们要是频繁登陆访问,可能这时网站就会出现一个验证码图片,要求我们输入验证码才能登陆,这样在保证用户方便访问的同时,又防止了机器的恶意频繁访问。对于这种情况,转载 2017-09-14 13:15:37 · 2094 阅读 · 0 评论 -
网络爬虫-使用Cookie登陆
我们经常有这样的上网经历,就是如果你采用用户名密码登陆一个网站之后,如果在一段不长的时间内,再次访问这个本来需要你登陆的网站,你会很轻易地访问,而不需要再次输入用户名密码。这种“免登陆”的体验无疑给用户带来了非常好的体验,那为什么会“免登陆”呢?是什么在起作用呢?答案就是Cookie。当我们在浏览器内输入url,浏览器会向服务器发送一个HTTP请求,相应的,服务器会响应这个请求,向浏览器返回响转载 2017-09-14 13:16:23 · 409 阅读 · 0 评论 -
静态网页抓取,动态网页抓取,模拟登陆的注意事项和心得
最近更新:2013-07-03背景之前,对于折腾,静态或动态的网页抓取,模拟登陆,也算有些时日了。在此期间,遇到很多问题,也都基本上靠自己慢慢的解决了。此处,把其中相对常见和通用的问题或者是注意事项,再加上一些心得,在此整理出来,供参考:网页抓取和模拟登陆的注意事项和心得如果不加User-Agent,则有些网址的访问,会被禁止的此点,之前别的很多人已总结过了。此转载 2017-09-14 15:47:23 · 980 阅读 · 0 评论 -
python 用已登录的cookie发送请求
如题,比如现在已经手动用ie登录了csdn,然后可以在ie的缓存里面找到对应的cookie,能否用这个cookie请求我的博客等需要登录的页面呢?网络上找了很多中方法,但是没有一种尝试成功的。Python code?1234567891011121314#coding=utf-8impo转载 2017-09-14 15:48:27 · 1105 阅读 · 0 评论 -
python利用cookie登录网站进行访问
在写爬虫的时候遇到需要登录才能访问的网站往往很令人头疼,伪装成浏览器访问神马的也许又会遇到网站采取的加密措施,不胜麻烦!然而,如果换一种思路,先用浏览器登录你想访问的网站,再在浏览器的控制台里找到该网站的cookie,然后利用这个cookie进行带cookie的访问,无疑是短时间内解决此问题的好办法。但是我们都知道cookie的有效期并不长,所以可能第二天你就必须重新查看新的cookie。下面转载 2017-09-14 15:49:42 · 4456 阅读 · 0 评论 -
http调用打码兔 的文档
http://wiki.dama2.com/index.php?n=ApiDoc.Http转载 2017-09-14 15:51:59 · 648 阅读 · 0 评论