我们日常生活中经常使用的搜索引擎就是一种网络爬虫。它们利用比较先进的算法和程序从服务器中爬取到用户所需要查找的信息。
笔者也研究过一段时间的网络爬虫,不过能力还不够。而且是刚开始用python写网络爬虫的旅程。了解过之后,发现用python写网
络爬虫要比java写网络爬虫更加简洁与方便。下面是我写的第一个python网络爬虫实例:
#coding=utf-8
import urllib2
import urllib
def download(url):
'''@url:需要爬取的网页地址'''
print 'Downloading:',url
html = urllib2.urlopen(url).read() '''此语句用于获得网页的html代码'''
urllib.urlretrieve(url,'f://download.html') '''此语句用于下载网页的html代码'''
'''调用download函数'''
download('http://www.taobao.com/')
由于用户在访问网页时,可能会出现一些错误代码。常见的有:
200:成功(以2开头的代码均成功)
302:重定向(目标暂时转移)
404:客户端错误,在服务器中找不到查找的资源或信息。(以4开头的均为客户端错误)
500:服务器内部错误。&