七、爬虫思路总结

最新推荐文章于 2024-08-18 15:31:51 发布

冰柠づ

最新推荐文章于 2024-08-18 15:31:51 发布

阅读量165

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xxzjjyo/article/details/105357864

版权

爬虫思路总结

准备URL
- 准备start_url
  - 页码总数不明确
  - URL地址规律不明显（xpath提取下一页的URL地址）
- 准备url_list
  - 页码总数明确
  - URL地址规律明显的（page=2）
发送请求，获取响应
- 添加随机的User-Agent
- 代理IP
- session
提取数据
- 确定数据的位置
  - 如果数据在当前的URL地址中
    - 数据在列表页面
      - 直接发送请求
    - 数据在详情页面（重复上面的操作）
  - 如果数据不在当前的URL地址中
    - 在其他的响应中，寻找数据位置
      - 从network列表从上至下寻找
      - 使用过滤，选择除了css，js之外的
      - 搜索
- 数据提取
  - xpath
  - re
  - json
  - beautiful soup
保存
- csv，text，json
- 数据库（MySQL、Redis(分布式)、MongoDB）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。