药监总局相关数据爬取

最新推荐文章于 2023-10-12 09:24:57 发布

友人A~~~

最新推荐文章于 2023-10-12 09:24:57 发布

阅读量2.3k

点赞数

分类专栏： python爬虫文章标签： python 爬虫数据挖掘

本文链接：https://blog.csdn.net/weixin_44738882/article/details/123782253

版权

本文介绍了如何使用Python的requests库爬取药监总局网站上的企业详情数据。首先分析了页面动态加载的数据获取方式，包括从首页的ajax请求中提取企业id，并详细讲述了如何针对不同的id构造详情页url来获取企业信息。整个过程展示了动态加载数据的爬取步骤，适合初学者学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
方法一：requests
- 1. 分析思路
- 2. 实现代码
总结

前言

目标：获取企业的详情数据
药监总局网址：http://scxk.nmpa.gov.cn:81/xk/

方法一：requests

1. 分析思路

首页的数据是动态加载的
首页中对应的企业的数据是通过ajax动态请求到的
详情页的url域名都是一样的，只是携带的参数（id）不一样
id可以从首页对应的ajax请求到的json串中获取
详情页的企业详情信息也是动态加载出来的

2. 实现代码

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import requests
import json

# 批量获取不同企业的id值
url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
headers ={
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
}
id_list = []
all_data_list = [