python爬取妹子图网健康图片

最新推荐文章于 2024-04-04 09:38:23 发布

会飞的尼古拉斯

最新推荐文章于 2024-04-04 09:38:23 发布

阅读量316

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/weixin_43632687/article/details/104099640

版权

Python 专栏收录该内容

127 篇文章 6 订阅

订阅专栏

为了博取大家的眼球，博主选了这个题材，现实生活中博主很正直的人，嗯
废话不说
demo，本demo只爬取了封面图片，内部图片方法相同

import requests
from pyquery import PyQuery as pq
import os

class pachong:
    # 初始化
    def __init__(self,url,headers):
        self.url=url
        self.headers=headers
        self.text=requests.get(self.url,headers=self.headers).text

    def page(self):
        doc=pq(self.text)
        item=doc('.pagebar a')
        pages=[]
        for i in item:
            if pq(i).attr.href not in pages:
                pages.append(pq(i).attr.href)
                print(pq(i).attr.href)
        return pages
    # 妹妹图片提取与保存
    def storeImg(self,text):
        pageHtml=pq(text)
        imgs=pageHtml('li .img a')
        for i in imgs:
            img=pq(i)('img')
            title=pq(img).attr.alt
            src=pq(img).attr.src
            try:
                if not os.path.exists(r'C:\Users\XChen32\Desktop\meizi\image'):
                    os.makedirs(r'C:\Users\XChen32\Desktop\meizi\image')
                content=requests.get(src,headers=self.headers).content
                with open(r'C:\Users\XChen32\Desktop\meizi\image\%s.jpg'%title,'wb+') as file:
                    file.write(content)
            except:
                pass

    def startMain(self):
        pages=self.page()
        #第一页妹妹图片爬虫
        self.storeImg(self.text)
        #其他页妹妹图片爬虫
        for page in pages:
            text = requests.get(page, headers=self.headers).text
            self.storeImg(text)


headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36"
            }
url=r"https://www.lnlnl.cn/meizitu/"

storeMM=pachong(url,headers)

#pages=storeMM.page()
storeMM.startMain()