python爬虫（一）：抓取衣服图片

置顶 A叶子叶

于 2016-04-18 14:33:00 发布

阅读量6.7k

点赞数 5

分类专栏： # Python与数据分析 # Python爬虫与使用 # 数据挖掘算法与实践文章标签： python 正则表达式爬虫深度学习人工智能

本文链接：https://blog.csdn.net/yezonggang/article/details/51179308

版权

数据挖掘算法与实践同时被 3 个专栏收录

38 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

Python与数据分析

23 篇文章

订阅专栏

Python爬虫与使用

9 篇文章

订阅专栏

本文介绍了一个2016年的基础Python爬虫程序，用于批量下载亚马逊、Paul Frank等网站的服装图片。爬虫通过定位URL、HTML解析和目标数据下载三步骤工作，应对反爬虫策略，利用正则表达式和urllib进行图片路径查找并以二进制保存到本地。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2016年的爬虫程序，很基础，目的是帮女票批量获取衣服图片资源（比如亚马逊、Paul frank），做外贸生意需要定期更新产品的列表和图片，这个小爬虫程序实现爬取图片，获得了一些较大型服装官网的图片并保存；

爬数据的过程包括3个：定位目标URL、HTML解析、目标数据下载，循环反复直到完成整个过程，而且整个过程需要不断的修改爬虫逻辑，爬到的数据分类3种类型：文本、图像、音频，这个过程中会遇到一些反爬虫的网页设计，所谓“道高一尺魔高一丈”，目前开源的爬虫包有很多工具；

这个程序主要是python的正则表达式和网络请求包urllib，循环遍历url地址，找到图像的路径，并以二进制的形式写到本地，2016年的程序，不再深究：

<span style="font-size:18px;">
import urllib2
import re
import os
import uuid
import urllib

#得到网页的所有内容
def getHtml(url):
    page=urllib2.urlopen(url

了解本专栏

超级会员免费看