解析js拼接发请求，获取数据

最新推荐文章于 2024-06-08 13:47:13 发布

xutengfei999

最新推荐文章于 2024-06-08 13:47:13 发布

阅读量583

点赞数 2

文章标签： javascript 爬虫 python

本文链接：https://blog.csdn.net/xutengfei999/article/details/121137340

版权

要获取如下图里面的内容

1.在当前网页右键检查，按照如图所示的标签无法进入到领导介绍页面

2.分析网页信息，发现请求如下

3.右键查看网页源代码，发现请求中的node_id和cat_id参数是在源代码中js的变量，所以我们要解析这部分变量，拼接url并发请求从而获取到我们需要的数据

4.解析js部分的代码

def parse_url(self, response):
    node_id = re.findall('var node_id = "(.*?)";', response.text)
    res_str = re.findall("var zTreeNodes = (.*?);", response.text)
    if res_str:
        node_id = node_id[0]
        res_json = json.loads(res_str[0])
        # print("res_json=",res_json)
        for res in res_json:
            id = str(res['id'])
            name = res['text']
            url = 'http://www.snbinzhou.gov.cn/info/iList.jsp?isSd=false&node_id=' + node_id + '&cat_id=' + id
            if “领导” in name:     
                yield Request(url,call_back=self.parse_detail,meta={"item":response.meta['item']})

xutengfei999

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
解析js拼接发请求，获取数据

要获取如下图里面的内容1.在当前网页右键检查，按照如图所示的标签无法进入到领导介绍页面2.分析网页信息，发现请求如下3.右键查看网页源代码，发现请求中的node_id和cat_id参数是在源代码中js的变量，所以我们要解析这部分变量，拼接url并发请求从而获取到我们需要的数据4.解析js部分的代码def parse_url(self, response): node_id = re.findall('var node_id = "(.*?)";', re..
复制链接

扫一扫