![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫笔记
EricZHAOedu
这个作者很懒,什么都没留下…
展开
-
爬取京客隆文件目录下的信息们
爬取京客隆文件目录下的信息们import requestsfrom lxml import etreeimport reimport urllib3import osurllib3.disable_warnings() #取消warningheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Sa原创 2021-03-28 16:07:30 · 105 阅读 · 0 评论 -
requests 模块
requests 模块引入在python实现的网络爬虫中,用于网络请求发送的模块有两种,第一种为urllib模块,第二种为requests模块。urllib模块是一种比较古老的模块,在使用的过程中较为繁琐和不便。当requests模块出现后,就快速的代替了urllib模块,因此,在我们课程中,推荐大家使用requests模块。使用requests流程指定url基于requests模块发起请求(get/post)获取响应对象中的数据值持久化存储爬取搜狗首页整页数据# 需求: 爬取so原创 2021-03-25 13:52:13 · 91 阅读 · 0 评论 -
requests 爬取图片
requests 爬取图片爬取一张图片import requests#爬取对象网址 https://pic.qiushibaike.com#爬取一张图片url = 'https://pic.qiushibaike.com/system/pictures/12416/124164031/medium/6OVZQ8EAZPYTDGZO.jpg'# text(字符串) content(二进制) json()(json对象)img_data = requests.get(url=url,verif原创 2021-03-25 15:29:27 · 262 阅读 · 0 评论 -
爬虫 - 通过默认字典和pandas快速将网页数据存为Excel
爬虫 - 通过默认字典和pandas快速将网页数据存为Excel这里引用了孙兴华老师爬虫课的案例爬取北京-京客隆 网页上所有的店铺信息, 并且保存为本地excel# 网址 https://www.jkl.com.cn/cn/import requestsfrom lxml import etreeimport pandas as pdfrom collections import defaultdictheaders = { 'User-Agent':'Mozilla/5.0原创 2021-03-27 11:06:23 · 316 阅读 · 0 评论