环境准备
python3.9.7
pycharm
import request
import re
首先向目标网址模拟发送Get请求
import requests
import re
url = f"https://fabiaoqing.com/biaoqing/lists/page/{pages}.html"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240."
"198 Safari/537.36"
}
response = requests.get(url=url, headers=headers)
利用re正则表达式挑选想要的 url 和 Title
images = re.findall('<img class="ui image lazy" data-original="(.*?)"', html_data)
title = re.findall('<a href=".*?" title="(.*?)">', html_data)
最后for循环一下利用re.sub替换掉异常字符然后保存数据
for img_url, title in zip(images, title):
sk = img_url
if len(title) < 50:
new_title = re.sub(r'[ \\/:*"?|<>]', '', title)
response_2 = requests.get(img_url).content
suffix = img_url.split('.')[-1]
with open(f'img\\{new_title}.{suffix}', mode='wb')as f:
f.write(response_2)
print(new_title, sk)
最后附上图片可以爬取下来,有兴趣的可以试一试,最后记得关注一下UP主,制作不易,蟹蟹支持