用python语言写的简易爬虫

我们日常生活中经常使用的搜索引擎就是一种网络爬虫。它们利用比较先进的算法和程序从服务器中爬取到用户所需要查找的信息。

笔者也研究过一段时间的网络爬虫,不过能力还不够。而且是刚开始用python写网络爬虫的旅程。了解过之后,发现用python写网

络爬虫要比java写网络爬虫更加简洁与方便。下面是我写的第一个python网络爬虫实例:

#coding=utf-8

import urllib2
import urllib

def download(url):
    '''@url:需要爬取的网页地址'''
    print 'Downloading:',url
    html = urllib2.urlopen(url).read()		'''此语句用于获得网页的html代码'''
    urllib.urlretrieve(url,'f://download.html')     '''此语句用于下载网页的html代码'''
    
'''调用download函数'''
download('http://www.taobao.com/')
由于用户在访问网页时,可能会出现一些错误代码。常见的有:

200:成功(以2开头的代码均成功)

302:重定向(目标暂时转移)

404:客户端错误,在服务器中找不到查找的资源或信息。(以4开头的均为客户端错误)

500:服务器内部错误。&

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值