爬虫重点分析（一）

最新推荐文章于 2024-04-07 09:10:09 发布

取个名字不要很长

最新推荐文章于 2024-04-07 09:10:09 发布

阅读量646

点赞数

分类专栏：学习随笔

本文链接：https://blog.csdn.net/zl962025459/article/details/84307774

版权

9 篇文章 0 订阅

订阅专栏

response.content.decode()
response.content.decode(‘gbk’)
response.text
- response.content 与response.text数据类型不一样
  - response.content返回的是一个bytes型的二进制文件
  - response.text返回的是一个unicode型的文本数据，默认“iso-8859-1

assert response.status_code == 200

断言失败会抛出异常AssertionError，

"你好,{}同学.format(小明)

准备一堆的ip地址，组成ip池，随机选择一个ip来时用
如何随机选择代理ip，让使用次数较少的ip地址有更大的可能性被用到
- {“ip”:ip,“times”:0}
- [{},{},{},{},{}],对这个ip的列表进行排序，按照使用次数进行排序
- 选择使用次数较少的10个ip，从中随机选择一个
检查ip的可用性
- 可以使用requests添加超时参数，判断ip地址的质量
- 在线代理ip质量检测的网站

cookies = {i.split("=")[0]:i.split("=")[1] for i in cookies.split("; ")}

[self.url_temp.format(i * 50) for i in range(1000)]

实例化session，使用session发送post请求，在使用他获取登陆后的页面
headers中添加cookie键，值为cookie字符串
在请求方法中添加cookies参数，接收字典形式的cookie。字典形式的cookie中的键是cookie的name对应的值，值是cookie的value对应的值

在form表单中寻找action对应的url地址
- post的数据是input标签中name的值作为键，真正的用户名密码作为值的字典，post的url地址就是action对应的url地址
抓包，寻找登录的url地址
- 勾选perserve log按钮，防止页面跳转找不到url
- 寻找post数据，确定参数
  - 参数不会变，直接用，比如密码不是动态加密的时候
  - 参数会变
    - 参数在当前的响应中
    - 通过js生成

json中的字符串都是双引号引起来的
- 如果不是双引号
  - eval：能实现简单的字符串和python类型的转化
  - replace：把单引号替换为双引号
往一个文件中写入多个json串，不再是一个json串，不能直接读取
- 一行写一个json串，按照行来读取

使用xpath helper或者是chrome中的copy xpath都是从element中提取的数据，但是爬虫获取的是url对应的响应，往往和elements不一样
获取文本
- a/text() 获取a下的文本
- a//text() 获取a下的所有标签的文本
- //a[text()='下一页'] 选择文本为下一页三个字的a标签
@符号
- a/@href
- //ul[@id="detail-list"]
//
- 在xpath最前面表示从当前html中任意位置开始选择
- li//a 表示的是li下任何一个标签