![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫笔记
EricZHAOedu
走在技术的道路上...
让优秀成为一种习惯...
展开
-
爬取京客隆文件目录下的信息们
爬取京客隆文件目录下的信息们 import requests from lxml import etree import re import urllib3 import os urllib3.disable_warnings() #取消warning headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Sa原创 2021-03-28 16:07:30 · 105 阅读 · 0 评论 -
requests 模块
requests 模块 引入 在python实现的网络爬虫中,用于网络请求发送的模块有两种,第一种为urllib模块,第二种为requests模块。urllib模块是一种比较古老的模块,在使用的过程中较为繁琐和不便。当requests模块出现后,就快速的代替了urllib模块,因此,在我们课程中,推荐大家使用requests模块。 使用requests流程 指定url 基于requests模块发起请求(get/post) 获取响应对象中的数据值 持久化存储 爬取搜狗首页整页数据 # 需求: 爬取so原创 2021-03-25 13:52:13 · 92 阅读 · 0 评论 -
requests 爬取图片
requests 爬取图片 爬取一张图片 import requests #爬取对象网址 https://pic.qiushibaike.com #爬取一张图片 url = 'https://pic.qiushibaike.com/system/pictures/12416/124164031/medium/6OVZQ8EAZPYTDGZO.jpg' # text(字符串) content(二进制) json()(json对象) img_data = requests.get(url=url,verif原创 2021-03-25 15:29:27 · 263 阅读 · 0 评论 -
爬虫 - 通过默认字典和pandas快速将网页数据存为Excel
爬虫 - 通过默认字典和pandas快速将网页数据存为Excel 这里引用了孙兴华老师爬虫课的案例 爬取北京-京客隆 网页上所有的店铺信息, 并且保存为本地excel # 网址 https://www.jkl.com.cn/cn/ import requests from lxml import etree import pandas as pd from collections import defaultdict headers = { 'User-Agent':'Mozilla/5.0原创 2021-03-27 11:06:23 · 316 阅读 · 0 评论