爬虫学习
Heavy sea
这个作者很懒,什么都没留下…
展开
-
爬取国家药品监督总局化妆品生产许可证的数据
需求:爬取国家药品监督总局中基于化妆品生产许可证的相关数据http://scxk.nmpa.gov.cn:81/xk/通过抓包分析:首页中对应的企业信息数据是通过ajax动态请求得到的点击进入企业的详情页,发现:url的域名都是一样的,只有携带的参数(id)不一样id 值可以从首页对应的ajax请求到的json串中获得故:域名和id值可拼接一个完整的企业详情页的url# -*-coding:utf-8 -*-import requestsimport jsonif __name__原创 2021-03-14 20:47:12 · 855 阅读 · 0 评论 -
requests模块之破解百度翻译
json模块:JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。JSON的数据格式其实就是python里面的字典格式,里面可以包含方括号括起来的数组,也就是python里面的列表。json.dump()用于将dict类型的数据转成str,并写入到json文件中。通过抓包知百度翻译中词语含义在sug包中,响应数据类型是json类型# -*-coding:utf-8 -*-import jsonimport requestsif __原创 2021-03-10 18:02:52 · 227 阅读 · 2 评论 -
requests模块之简易网页采集器
import requestsresponse = requests.get('http://www.baidu.com')print(response.status_code) # 打印状态码print(response.url) # 打印请求urlprint(response.headers) # 打印头信息print(response.cookies) # 打印cookie信息print(response.text) #以文本形式打印网页源码p原创 2021-03-10 16:07:47 · 131 阅读 · 0 评论