爬取多页图片

最新推荐文章于 2024-09-14 19:55:48 发布

神来回复

最新推荐文章于 2024-09-14 19:55:48 发布

阅读量135

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/weixin_48516591/article/details/127822024

版权

Python requests re 图片下载网页抓取

关键词由CSDN通过智能技术生成

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

import requests
import re
import os
headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36X-Requested-With: XMLHttpRequest'}
"""
context 二进制数据  爬取图片视频使用这个格式
json  对象数据
text 字符串数据
"""
def get_page_response(url):
    response=requests.get(url=url,headers=headers)
    return response
def get_page_text(response):
    page_text=response.content
    return page_text
def write_file(page_text,filename):
    with open(f"./{filename}.jpg","wb") as fp:
        fp.write(page_text)
    return None
def main():
    url="http://img.itlun.cn/uploads/allimg/180506/1-1P5061TS6-lp.jpg"
    filename="1"
    page_response=get_page_response(url)
    page_text=get_page_text(page_response)
    write_file(page_text,filename)
def main1():
    url="http://pic.netbian.com/4kmeinv/"
    page_text=requests.get(url=url,headers=headers).text
    ex='<img src="(.*?)" alt.*?>'
    img_src_list=re.findall(ex,page_text,re.S)
    # print(img_src_list)
    for src in img_src_list:
        src='http://pic.netbian.com'+src
        src_data=requests.get(url=src,headers=headers).content
        img_name=src.split("/")[-1]
        img_Path="./女汉子/"+img_name
        with open(img_Path,"wb") as fp:
            fp.write(src_data)
            print(img_name+"下载成功！！！！！")
def main2():
    url="http://pic.netbian.com/"
    page_text = requests.get(url=url, headers=headers).text
    ex = '<img src="(.*?)" alt.*?>'
    img_src_list = re.findall(ex, page_text, re.S)
    # print(img_src_list)
    for src in img_src_list:
        src = 'http://pic.netbian.com' + src
        src_data = requests.get(url=src, headers=headers).content
        img_name = src.split("/")[-1]
        img_Path = "./女汉子/" + img_name
        with open(img_Path, "wb") as fp:
            fp.write(src_data)
            print(img_name + "下载成功！！！！！")
    for pageNum in range(2,50):
        # https: // pic.netbian.com / index_3.html
        new_url=url+"index_"+str(pageNum)+".html"
        page_text = requests.get(url=new_url, headers=headers).text
        ex = '<img src="(.*?)" alt.*?>'
        img_src_list = re.findall(ex, page_text, re.S)
        # print(img_src_list)
        for src in img_src_list:
            src = 'http://pic.netbian.com' + src
            src_data = requests.get(url=src, headers=headers).content
            img_name = src.split("/")[-1]
            img_Path = "./女汉子/" + img_name
            with open(img_Path, "wb") as fp:
                fp.write(src_data)
                print(img_name + "下载成功！！！！！")
if __name__=="__main__":
    # main()
    if not os.path.exists("./女汉子"):
        os.mkdir("./女汉子")
    # main1()
    main2()
    # https: // pic.netbian.com / index_3.html