为了博取大家的眼球,博主选了这个题材,现实生活中博主很正直的人,嗯
废话不说
demo,本demo只爬取了封面图片,内部图片方法相同
import requests
from pyquery import PyQuery as pq
import os
class pachong:
# 初始化
def __init__(self,url,headers):
self.url=url
self.headers=headers
self.text=requests.get(self.url,headers=self.headers).text
def page(self):
doc=pq(self.text)
item=doc('.pagebar a')
pages=[]
for i in item:
if pq(i).attr.href not in pages:
pages.append(pq(i).attr.href)
print(pq(i).attr.href)
return pages
# 妹妹图片提取与保存
def storeImg(self,text):
pageHtml=pq(text)
imgs=pageHtml('li .img a')
for i in imgs:
img=pq(i)('img')
title=pq(img).attr.alt
src=pq(img).attr.src
try:
if not os.path.exists(r'C:\Users\XChen32\Desktop\meizi\image'):
os.makedirs(r'C:\Users\XChen32\Desktop\meizi\image')
content=requests.get(src,headers=self.headers).content
with open(r'C:\Users\XChen32\Desktop\meizi\image\%s.jpg'%title,'wb+') as file:
file.write(content)
except:
pass
def startMain(self):
pages=self.page()
#第一页妹妹图片爬虫
self.storeImg(self.text)
#其他页妹妹图片爬虫
for page in pages:
text = requests.get(page, headers=self.headers).text
self.storeImg(text)
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36"
}
url=r"https://www.lnlnl.cn/meizitu/"
storeMM=pachong(url,headers)
#pages=storeMM.page()
storeMM.startMain()
注意事项:需要添加headers
pyquery包的使用方法本文不讲术
HTML分析
li是当前页的所有图片
这里是li的封面图片以及整个专辑的地址,本文没做爬取
这里是一共多少页图片
这里是结果: