首先对网页进行分析
这个就是我们需要的页面
然后看到,这里其实有一个ajax请求,页面上的数据也是从这个请求里生成的。
返回的是一个json格式的数据。
所以接下来要做的就是先在第一个页面,爬取那些分类的url,然后对比这个ajax请求的url,合成最终的url,最后发起请求,得到数据,最后保存到了mongoDB里,就完成了。
代码如下
import requests
import json
import pymongo
from lxml import etree
import re
import threading
class D