2016年的爬虫程序,很基础,目的是帮女票批量获取衣服图片资源(比如亚马逊、Paul frank),做外贸生意需要定期更新产品的列表和图片,这个小爬虫程序实现爬取图片,获得了一些较大型服装官网的图片并保存;
爬数据的过程包括3个:定位目标URL、HTML解析、目标数据下载,循环反复直到完成整个过程,而且整个过程需要不断的修改爬虫逻辑,爬到的数据分类3种类型:文本、图像、音频,这个过程中会遇到一些反爬虫的网页设计,所谓“道高一尺魔高一丈”,目前开源的爬虫包有很多工具;
这个程序主要是python的正则表达式和网络请求包urllib,循环遍历url地址,找到图像的路径,并以二进制的形式写到本地,2016年的程序,不再深究:
<span style="font-size:18px;">
import urllib2
import re
import os
import uuid
import urllib
#得到网页的所有内容
def getHtml(url):
page=urllib2.urlopen(url