突然心血来潮想试一下爬虫去爬取网络上的图片
思索一番大致可以拆成几个步骤
1.找到要爬的网址 2.保存图片
用requests来就是:
先发送请求,获取响应文本,从中获取图片网址?
拼接或者拿到完整网址进行wget/requests再次发请求获得文本然后写入二进制文件从而得到图片
以下出现的网址仅作为例子尝试,无其他操作
1.发送一个请求例子
import requests
url = "https://pic.netbian.com/e/search/result/index.php?page=0&searchid=2202"
resq = requests.get(url=url)
print(resq.text)
2.一些问题的解决
会发现这个请求响应文本并不可以直接查看到当前页面中的图片的url地址
以及请求头会有问题,如果反爬虫就需要重新设置一下请求头,模拟真实电脑的请求头,就直接使用电脑浏览器发送的请求头即可(笑)
(1)解决请求头
print(resq.request.headers)
# {'User-Agent': 'python-requests/2.28.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
随便找一个网站查看请求头复制对应的user-agent即可<