多线程爬取豆瓣电影

最新推荐文章于 2024-03-16 11:40:23 发布

李嘉豪554

最新推荐文章于 2024-03-16 11:40:23 发布

阅读量1.1k

点赞数 2

本文链接：https://blog.csdn.net/weixin_44251004/article/details/93663553

版权

本文介绍如何分析豆瓣电影网页，发现其利用ajax请求获取数据的机制。通过爬取分类URL，结合ajax请求生成完整URL，再发起请求获取JSON数据，最后将数据存储到MongoDB中。整个过程采用多线程技术提高爬取效率。

摘要由CSDN通过智能技术生成

首先对网页进行分析

这个就是我们需要的页面

然后看到，这里其实有一个ajax请求，页面上的数据也是从这个请求里生成的。

返回的是一个json格式的数据。

所以接下来要做的就是先在第一个页面，爬取那些分类的url，然后对比这个ajax请求的url，合成最终的url，最后发起请求，得到数据，最后保存到了mongoDB里，就完成了。

代码如下


import requests
import json
import pymongo
from lxml import etree
import re
import threading


class D

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注