使用requests库爬取图片
爬虫流程
找到目标数据
分析请求流程
构造http请求
提取数据
数据持久化
抓取首页图片(静态)
1.目标数据是图片,导入头文件
import re#正则头文件
import os#系统操作头文件
import requests#请求方法头文件
2.请求流程 (爬取一张图片)
1.先访问图片数据URL
url = "pic.netbian.com/uploads/allimg/190824/212516-1566653116f355.jpg"
2.对URL发起请求,获取图片数据
res = requests.get(url)
#res只包含图片的数据(只有纯粹的图片数据我们才能存储)
3.存储
with open("图片.jpg","wb")as f:
f.write(res.content)#二进制数据用content,字符串数据用text
3.构造请求
这里是爬取多张图片,爬取的是彼岸图网
1.访问网站,这里不是图片URL
url1 = "https://pic.netbian.com/4kdongman/"
2.构造请求头,不添加headers就相当于没伪装,直接拿数据库的身份去请求,头都给你锤烂,一般情况下添加user-agent就行了,去浏览器上随便找一个请求头就行
headers = {
"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"}