图片爬虫通过模板及使用说明

最新推荐文章于 2025-05-15 14:58:01 发布

q56731523

最新推荐文章于 2025-05-15 14:58:01 发布

阅读量379

点赞数 7

文章标签：爬虫 golang tcp/ip 开发语言

本文链接：https://blog.csdn.net/weixin_44617651/article/details/147980470

版权

闲来无事，写一个简单的通用爬虫模板来爬取图片。通常，爬虫的流程包括发送请求、解析内容、下载图片这几个步骤。因为我对对Python比较熟悉，所以用Python来写比较合适。

首先发送请求获取页面内容，然后解析页面提取图片链接，最后下载图片到本地。每个步骤需要处理可能的异常，比如请求失败、解析错误、下载失败等，加入try-except块进行错误处理，并给出提示。

在这里插入图片描述

因为要考虑实际使用中到通用性，可能需要对方提供选择器，比如使用CSS选择器或XPath。这里用BeautifulSoup的话，CSS选择器比较方便。需要根据不同的网站调整选择器和属性，所以模板里应该注明这些需要用户自定义的地方。

以下是一个简单通用的图片爬虫模板，可根据不同网站调整选择器和参数。代码包含详细注释说明：

import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from concurrent.futures import ThreadPoolExecutor

def image_spider_template():
    # ############ 配置区域（根据目标网站修改这些参数）############
    target_url = "https://example.com"       # 目标网站URL
    img_css_selector = "img.content-img"    # 图片元素CSS选择器
    img_attr = "data-src"                   # 包含图片URL的属性（通常是src或data-src）
    output_dir = "downloads"                # 图片存储目录
    headers = {                             # 请求头（根据需要添加）
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
    }
    max_workers = 5                         # 最大并发下载线程数
    ###########################################################

    # 创建存储目录
    os.makedirs(output_dir, exist_ok=True)

    def download_image(img_url, filename):
        """下载并保存单个图片"""
        try:
            response = requests.get(img_url, headers=headers, stream=True)
            if response.status_code == 200:
                filepath = os.path.join(output_dir, filename)
                with open(filepath, 'wb') as f:
                    for chunk in response.iter_content(1024):
                        f.write(chunk)
                print(f"下载成功：{filename}")
            else:
                print(f"下载失败：{img_url} 状态码：{response.status_code}")
        except Exception as e:
            print(f"下载出错：{img_url} 错误：{str(e)}")

    def parse_page(url):
        """解析页面获取图片URL"""
        try:
            response = requests.get(url, headers=headers)
            soup = BeautifulSoup(response.text, 'lxml')
            
            # 查找所有图片元素
            img_elements = soup.select(img_css_selector)
            print(f"找到 {len(img_elements)} 张图片")
            
            # 提取图片URL并转换为绝对地址
            img_urls = []
            for img in img_elements:
                img_url = img.get(img_attr)
                if img_url:
                    absolute_url = urljoin(url, img_url)
                    img_urls.append(absolute_url)
            return img_urls
        except Exception as e:
            print(f"页面解析失败：{str(e)}")
            return []

    def main():
        # 获取所有图片URL
        img_urls = parse_page(target_url)
        
        # 使用线程池并发下载
        with ThreadPoolExecutor(max_workers=max_workers) as executor:
            for idx, url in enumerate(img_urls):
                # 生成唯一文件名（可根据需要修改命名规则）
                filename = f"image_{idx+1}_{os.path.basename(url).split('?')[0]}"
                executor.submit(download_image, url, filename)

    if __name__ == "__main__":
        main()

# 使用示例
if __name__ == "__main__":
    image_spider_template()

主要功能说明：

1、可配置参数：

目标网站URL
图片元素的CSS选择器
包含图片地址的属性名
输出目录设置
请求头设置
并发线程数控制

2、核心功能：

自动创建存储目录
支持相对路径转绝对路径
多线程并发下载
错误处理和状态提示
自动生成唯一文件名

3、使用说明：

修改配置区域的参数适配目标网站
根据需要调整文件名生成规则
可添加代理、延时等反爬措施
注意遵守网站robots.txt规则

4、扩展建议：

添加自动翻页功能
支持不同类型的图片选择器（XPath）
增加去重功能
添加进度条显示
支持异步请求（aiohttp）

根据上文我总结了，模板的结构应该是：导入必要的库，定义配置参数，发送请求函数，解析函数，下载函数，主函数逻辑，以及if name == 'main’部分。同时，添加必要的注释，说明每个部分的作用和需要用户自定义的地方。可能还要包括异常处理和路径处理，确保代码健壮性。最后需要提醒大家的是，在使用时请遵守相关法律法规和网站服务条款，合理控制请求频率，避免对目标网站造成过大压力。