Writeup [2022/7/18] : 某信息发布网站数据爬取

nil@megrez

已于 2022-08-13 14:53:37 修改

阅读量214

点赞数

分类专栏： Writeup 文章标签：爬虫

于 2022-07-18 14:31:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzguard/article/details/125848470

版权

Writeup 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、背景

针对某信息发布网站，希望爬取已发布的信息。原网站提供过滤查询选项，且内容加载方式以 JS 拉取数据后填充显示进行。不提供直接的选页功能，仅可通过下一页，或前后三页幅度跳转，跳转也以 JS 更新数据形式进行。

二、方案一（未最终采用）

1、利用 Selenium 模拟网页访问，获取显示内容，并激发下一页跳转。持续爬取数据。

2、该方法遇到两个问题：1）网站设计上可能存在缺陷，在完全不添加查询过滤选项时，仅能正常显示一部分分页。不能访问的部分未见主动限制提示，猜测是代码实现中有 bug。2）采用 Selenium 整体加载较慢，爬取效率较低。

三、方案二

1、利用 Chrome 调试台查看网络流量，定位到所需过滤选项条件下 JS 拉取数据的接口，该接口返回含所需爬取内容的 JSON 格式数据，访问速度很快。

2、经测试，未发现该接口有访问限制。可进行持续大量访问。

3、编写 python 脚本，利用 requests 包按所需过滤条件调用该数据端口，保存获取的数据。

4、因数据量较大，采用多进程 + 多线程方法进行加速。

------------------

20220813更新：

目标网站调整部分方案二接口返回数据的方式，不直接返回 json 数据，而是返回嵌入 js 的 html 页面，在页面加载时可获得完整数据。因此更改拉取接口，改为使用 Selenium 模拟网页访问后再获取其中的 json 数据。经测试，发现原多线程拉取方法过度占用系统资源，故改为单线程爬取。对一年量数据的爬取整体耗时为多线程方案下3-4倍。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。