爬虫学习
Heavy sea
这个作者很懒,什么都没留下…
展开
-
爬取国家药品监督总局化妆品生产许可证的数据
需求:爬取国家药品监督总局中基于化妆品生产许可证的相关数据 http://scxk.nmpa.gov.cn:81/xk/ 通过抓包分析: 首页中对应的企业信息数据是通过ajax动态请求得到的 点击进入企业的详情页,发现: url的域名都是一样的,只有携带的参数(id)不一样 id 值可以从首页对应的ajax请求到的json串中获得 故:域名和id值可拼接一个完整的企业详情页的url # -*-coding:utf-8 -*- import requests import json if __name__原创 2021-03-14 20:47:12 · 897 阅读 · 0 评论 -
requests模块之破解百度翻译
json模块: JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。JSON的数据格式其实就是python里面的字典格式,里面可以包含方括号括起来的数组,也就是python里面的列表。 json.dump()用于将dict类型的数据转成str,并写入到json文件中。 通过抓包知百度翻译中词语含义在sug包中,响应数据类型是json类型 # -*-coding:utf-8 -*- import json import requests if __原创 2021-03-10 18:02:52 · 267 阅读 · 2 评论 -
requests模块之简易网页采集器
import requests response = requests.get('http://www.baidu.com') print(response.status_code) # 打印状态码 print(response.url) # 打印请求url print(response.headers) # 打印头信息 print(response.cookies) # 打印cookie信息 print(response.text) #以文本形式打印网页源码 p原创 2021-03-10 16:07:47 · 148 阅读 · 0 评论