爬虫requests库
文章平均质量分 90
苦练插画的摄影师Christine
这个作者很懒,什么都没留下…
展开
-
爬虫requests库-1-requests库模块安装发送请求和获取网页的字符串
requests基本介绍requests的作用发送网络请求,获取响应数据中文文档API:https://2.python-requests.org//zh_CN/latest/user/install.html网址最好在Chrome浏览器打开,如果是英文,还可以右击翻译成中文requests的使用发送请求首先导入requests模块,这是一个第三方模块,需要安装,pip in...原创 2019-08-13 10:43:08 · 286 阅读 · 1 评论 -
爬虫reqeuests库-6-使用requests模拟登陆的三种方式-字典推倒式
cookie和session的区别cookie数据存放在客户浏览器上,session放在服务器上cookie不安全session访问增多时会占用服务器性能cookie保存的数据不能超过4K,很多浏览器都设置一个站点最多保存20个cookie爬虫处理cookie和session携带一堆cookie组成cookie池能不使用cookie时尽量不用,速度快,但是如果要获取登录后的页面...原创 2019-08-13 10:44:01 · 390 阅读 · 0 评论 -
爬虫requests库-5-requests模块使用代理
什么是代理把web server想象成谷歌服务器,正常教室内无法直接访问,通过VPN软件来访问。代理的分类是否能知道最终服务器的信息:知道:正向代理不知道:反向代理,防止别人攻击网站,即使攻击了也是攻击nginx,重启一下nginx就可以了。爬虫为什么要使用代理?让服务器以为不是同一个客户端在请求防止我们的真实地址被泄露,防止追究责任代理的使用方法requests....原创 2019-08-13 10:44:26 · 11618 阅读 · 0 评论 -
爬虫requests库-4-requests模块发送post请求(以百度翻译为例)
哪些地方会用到post请求登录注册,post比get更安全数据放在请求体里,不会放在url地址里。需要传输大文本内容时post请求对数据长度没有要求,url太长,无法使用get发送post请求的用法response = requests.post(“http://www.baidu.com”,data=data,headers=headers)data的形式:字典复习:发...原创 2019-08-13 10:44:42 · 1249 阅读 · 1 评论 -
爬虫requests库-3-爬虫贴吧
首先要观察爬虫的URL规律,爬取一个贴吧所有页的数据,观察点击下一页时URL是如何变化的。思路:定义一个类,初始化方法什么都不用管定义一个run方法,用来实现主要逻辑 3 class TiebaSpider(): 4 def __init__(self): 5 pass 6 7 8 def run(self): ...原创 2019-08-13 10:45:05 · 407 阅读 · 0 评论 -
爬虫requests库-2-requests模块发送带headers的请求和带参数的请求
发送简单的请求response = requests.get(“url”)response常用方法response.textresponse.contentresponse.status_code(获取状态码,如果返回200,说明请求的某个URL成功,并不能说明当前URL请求成功)(用assert response.status_code == 200,断言请求成功)respo...原创 2019-08-13 10:45:18 · 1663 阅读 · 1 评论