用python进行网络爬虫(一)--编写第一个爬虫

本文是一个python3爬虫入门教程,介绍如何下载网页、设置用户代理、ID遍历爬虫以及链接爬虫。通过示例解释了如何处理网页下载中的重试和设置用户代理,以及如何利用ID遍历网站内容。同时提到了requests库在爬虫中的重要性。
摘要由CSDN通过智能技术生成

本文是一个python3爬虫入门教程,需要注意的是你需要有python基础,不过也仅需要掌握简单的用法即可。

前言

网络爬虫被用于许多领域,收集不太容以其他格式获取的信息。

需要注意的是,网络爬虫当你抓取的是现实生活中真实的公共的公共数据,在合理的使用规则下是允许转载的。
相反,如果是原创数据或是隐私数据,通常受到版权显示,而不能转载。 请记住,自己应当是网络的访客,应当约束自己的抓取行为,否则会造成不良后果。

我们将从零开始,逐步完善一个高级网络爬虫。.

下载网页

下面的示例脚本使用urllib模块下载url

import urllib.request
def download(url):
	return urllib.request.urlopen(url).read()

当传入url时,该函数将会下载网页并返回其HTML。不过这样不够稳健,因为我们访问网页的时候可能会遇到问题,比如页面不存在。
因此下面给出一个更稳健的版本:

import urllib.request
from urllib.error import URLError,HTTPError,ContentTooShortError
def download(url):
    print('Downloading:')
    try:
        html = urllib.request.urlopen(url).read()
    except (URLError,HTTPError,ContentTooShortError) as e:
        print('download:',e.reason)
        html = None
    return
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值