Python requests爬取图片

最新推荐文章于 2024-02-12 11:18:28 发布

天愚

最新推荐文章于 2024-02-12 11:18:28 发布

阅读量1.1k

点赞数

分类专栏： requests爬虫学习笔记文章标签： Python requests

本文链接：https://blog.csdn.net/wl981292580/article/details/80339100

版权

本文介绍了使用Python的requests库进行网络爬虫，着重讲解如何在保存图片时实现文件夹的去重，虽然目前尚未涉及图片内容的去重机制。

摘要由CSDN通过智能技术生成

练习requests爬虫

保存图片时，文件夹实现去重，图片暂没有去重

import requests
from bs4 import BeautifulSoup
import re
import os
import time

url="http://www.58gc.cn/xgmn/"

def get_all():#获取首页所有图片组的信息
    url="http://www.58gc.cn/dcd/"
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0"}
    html=requests.get(url,headers=headers)
    #html.encoding="gbk"
    html=BeautifulSoup(html.text,'lxml')
    all_tpurl=html.select('li.wenshens > a:nth-of-type(1) ')
    for i in all_tpurl:
        tpz_url=i['href']#图片组链接
        name=i.find('img').get('alt')#图片组名字
        #print(tpz_url,name)
        yield (tpz_url,name)
def get_tuzu(tz):#获取单独一组图片中每张图片的链接并下载
    time.sleep(2)
    url=tz[0]
    name=tz[1]
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1

最低0.47元/天解锁文章

天愚

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python requests爬取图片

练习requests爬虫import requestsfrom bs4 import BeautifulSoupimport reimport osimport timeurl="http://www.58gc.cn/xgmn/"def get_all():#获取首页的图片组链接和名字 url="http://www.58gc.cn/dcd/" headers={"...
复制链接

扫一扫

专栏目录