学习分享 | 今天刚学完爬虫,就随便写了一个爬虫代码爬取某网站的图片
网站就是这个图片网站,我选的是1080p格式,4k的要会员,我反正是还不会
导入的包如下
import requests
from bs4 import BeautifulSoup
import time
将网址转化为html文件的函数
def ask_url(url):
# 模拟浏览器的头部信息
head = {
"User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML, likeGecko) Chrome/70.0.3538.102Safari/537.36Edge/18.19041"
}
# 访问页面
resp = requests.get(url, headers=head)
resp.encoding = "gbk"
# 将resp用BeautifulSoup处理并转为text得到主页面
bs_resp = BeautifulSoup(resp.text, 'html.parser')
return bs_resp
然后解析网站,一步一步获取图片的src链接,注意,由于网站的不同,图片的最终地址可能不同,但一般都是a标签里面的href链接,访问之后就会得到真正的图片src地址,当然有些网站还要再深入一层(比如我这个)
# 解析数据
def get_data(url):
count = 0
for item in range(0, 500)