python-使用find()和requests模块爬取小姐姐图片

最新推荐文章于 2021-06-05 21:17:23 发布

sunshine3号

最新推荐文章于 2021-06-05 21:17:23 发布

阅读量1.2k

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/weixin_50108437/article/details/108682738

版权

python 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

正则还没学,用find()练习一下

import requests
import os

os.mkdir("ooxx")  #  创建ooxx文件夹用来保存图片

def get_page(html):
    """
    下载图片
    """
    a = 0
    while a != -1:
        a = html.find('class="view_img_link"',a+500)
        b = html.find('href="',a-100)

        if b != -1:
            url = "http://"+html[b+8:a-18]
            print(url+"-----下载成功")  #  打印提示
            re = requests.get(url)
            with open("ooxx/"+url[28:-4]+".png","wb") as j:
                j.write(re.content)  #  保存图片


def find_url(html,count):
    #  获取下一页网址
    a = html.find('class="previous-comment-page">下一页</a>')
    b = html.find('href="',a-100)
    print("第"+str(count)+"页:  http:"+html[b+6:a-2]+"  =====================================")
    return "http:"+html[b+6:a-2]

def get_html(url):
    #  请求网页数据,获取页面源码
    header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3528.4 Safari/537.36"}
    re = requests.get(url, headers=header)
    html = re.text
    return html



if __name__ == '__main__':

    num = 10  #  获取几页数据
    url = "http://jandan.net/ooxx"
    print("第一页:  "+url+"    =======================================================")
    for i in range(num):
        html = get_html(url) #  获取图片网址
        get_page(html)
        if i != 9:
            url = find_url(html, i + 2)  # 获取下一页网址

sunshine3号

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python-使用find()和requests模块爬取小姐姐图片

import requestsimport osos.mkdir("ooxx") # 创建ooxx文件夹用来保存图片def get_page(html): """ 下载图片 """ a = 0 while a != -1: a = html.find('class="view_img_link"',a+500) b = html.find('href="',a-100) if b != -1:
复制链接

扫一扫

专栏目录