爬取的网站链接:http://www.mmonly.cc/mmtp/
主页网址唯一图库直接点到末页,一共有1274页。
右键点击
一个图片链接,选择审查元素
这里的img
是就封面,如果只抓取封面的话,到这就可以了,但要取的是所有图片,所以这里我们获取的是这个详情页的1链接:http://www.mmonly.cc/mmtp/xgmn/181603.html
,这就是第一个图集的链接,然后每页有24个图集。我这只爬取到852页,点击下一页查看下网址变化,http://www.mmonly.cc/mmtp/list_9_2.html
,页数变成2,所以我们这里直接循环,然后获取每一页上的图集1链接:
import requests
from lxml import html
for page in range(1,852):
url='http://www.mmonly.cc/mmtp/list_9_%s.html'%page
response=requests.get(url,verify=False).text
selector=html.fromstring(response)
imgEle=selector.xpath('//div[@class="ABox"]/a')
for img in imgEle:
imgUrl=img.xpath('@href')[0]
print(imgUrl