爬虫
听说这有个小白
python的一小白
展开
-
爬虫反爬之验证码
本文章使用的识别验证码工具为超级鹰通过开发文档页面获取超级鹰python语言demo解压压缩包,获取chaojiying.py文件,放置到项目文件夹中提取chaojiying.py中的main主程序 if __name__ == '__main__': chaojiying = Chaojiying_Client('超级鹰用户名', '超级鹰用户名的密码', '96001') #用户中心>>软件ID 生成一个替换 96001 im = open('a.jpg', 'r..原创 2020-10-06 15:31:24 · 499 阅读 · 0 评论 -
爬虫反爬之代理
使用爬虫爬取网站的数据时,在短时间内对网站发起高频请求,可能会被该网站禁用ip,这时候可以使用不同的代理服务器来进行请求。代理类型:一般根据访问的页面类型分为两种:httphttps代理匿名度: - 透明:使用代理,服务端可以获得本机ip,知道本地ip使用代理进行访问 - 匿名:使用代理,服务端无法获得本机ip,但是知道访问页面的是代理 - 高匿:使用代理,服务端无法分辨是否使用了代理代理的使用# 进行代理池的封装,代理服务器在ip代理网站获取# 本代码..原创 2020-10-06 14:43:46 · 225 阅读 · 0 评论 -
爬虫反爬之cookie
爬取某些网页需要携带cookie才可以进行访问携带cookie一般有两种方式:手动设置cookie:#在header中携带cookieheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36', "cookie":""}自动获取cookie:#使用reque原创 2020-10-06 14:10:55 · 1467 阅读 · 0 评论