关于图片的格式写法,很简单,更改套用数据即可
import requests from lxml import html #没有的用这个,要带上第八行提一下etree使用 #from html import etree 版本有etree的用这个 url = '....' #换个rul 爬取的网站 headers = {'...'} #用户登录的 et = html.etree #有的不需要,现在的格式html的没etree的模块,转化一下 response =requests.get(url=url,headers=headers) #发送请求 response.encoding='gb2312' #网页的编码 html = et.HTML(response.text) #获得到的数据转成text的格式,文本格式 img_list = html.xpath('//....') #xpath方法, # 以下属于数据解析,xpath BS4 RE 哪个好用用哪个 for img_data in img_list: img_url= img_data.xpath('./....')[0] #img_url= img_url.split('?')[0] #split切割,从?后都删除 img_name = img_data.xpath('./....')[0] new_url= 'https://'+(img_url[2:img_url.rfind('')]) # 获得的url从第二个开始 #保存图片 img = requests.get(new_url) with open('./image/%s.jpg' %img_name, 'wb') as file: file.write(img.content) #二进制方式保存 print('%s下载成功' %img_name)