爬虫思路总结
- 准备URL
- 准备start_url
- 页码总数不明确
- URL地址规律不明显(xpath提取下一页的URL地址)
- 准备url_list
- 页码总数明确
- URL地址规律明显的(page=2)
- 准备start_url
- 发送请求,获取响应
- 添加随机的User-Agent
- 代理IP
- session
- 提取数据
- 确定数据的位置
- 如果数据在当前的URL地址中
- 数据在列表页面
- 直接发送请求
- 数据在详情页面(重复上面的操作)
- 数据在列表页面
- 如果数据不在当前的URL地址中
- 在其他的响应中,寻找数据位置
- 从network列表从上至下寻找
- 使用过滤,选择除了css,js之外的
- 搜索
- 在其他的响应中,寻找数据位置
- 如果数据在当前的URL地址中
- 数据提取
- xpath
- re
- json
- beautiful soup
- 确定数据的位置
- 保存
- csv,text,json
- 数据库 (MySQL、Redis(分布式)、MongoDB)