Python爬虫
知识点及实例
ZD_012
这个作者很懒,什么都没留下…
展开
-
【Python爬虫】国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据爬取
需求爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据。代码import requestsimport jsonif __name__ == '__main__': # 批量获取不同企业的id值 url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 1原创 2020-10-13 10:51:11 · 3151 阅读 · 1 评论 -
【Python爬虫】豆瓣电影
需求爬取豆瓣电影分类排行榜中的电影详情数据。分析进入豆瓣电影分类排行榜 - 喜剧片页面,可以发现该页面向下滚动刷新,是进行局部刷新的,可以通过ajax实现。打开开发者工具,找到url、User-Agent,数据包的请求方式以及数据包响应数据的类型。可以看到请求方式是get,响应数据类型是json,所以使用requests.get()方式发起请求,使用json()方法获取相应对象。因为页面是可以刷新获取更多电影信息的,我们需要进行动态参数处理。在数据包的Headers框中的最下方有五个参数,它们就原创 2020-10-13 09:51:02 · 507 阅读 · 0 评论 -
【Python爬虫】破解百度翻译
需求破解百度翻译分析指定url进入百度翻译页面,打开开发者工具,在页面上随便翻译一个单词,我们可以看到页面是进行局部刷新的,可以通过ajax实现。点击开发者工具中的Netowrk,我们可以看见出现了一堆的包发起请求 我们可以通过开发者工具看到请求方式为GET,所以我们使用requests.get()方法。获取响应数据 从下图可知,内容的类型为text/html,所以我们使用 .text,返回字符串形式的响应数据。持久化存储代码import requestsimport jsoni原创 2020-10-13 09:30:38 · 800 阅读 · 2 评论 -
【Python爬虫】简易网页采集器
需求爬取搜狗指定词条对应的搜索结果页面。分析我搜索的词条为“哈利波特”,其url为 “https://www.sogou.com/web?query=哈利波特”(这是简洁处理过的,实际后面的一些参数省略了,不影响)。但为了能实现搜索不同的词条,我设置了动态参数kw,将其分装到字典中。当我们使用get方法发出请求时,请求所对应的url的参数就可以用params赋值。代码import requestsif __name__ == "__main__": # UA伪装:将对应的User-Ag原创 2020-10-12 21:00:32 · 408 阅读 · 0 评论 -
【Python爬虫】爬取搜狗首页的页面数据
分析1、指定url首先进入搜狗搜索页面,指定url,并进行UA伪装。UA就是User-Agent,UA伪装就是让爬虫对应的请求载体身份标识伪装成某一款浏览器。因为门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器,就说明该请求是一个正常的请求。但是,如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求为不正常的请求(爬虫),服务器就很有可能会拒绝该次请求。我们进入到搜狗搜索页面,打开开发者工具(鼠标右击,点击“检查”即可),点击Network,刷新页原创 2020-10-12 20:45:47 · 3486 阅读 · 0 评论