用python进行网络爬虫（一）--编写第一个爬虫

最新推荐文章于 2023-05-25 17:11:03 发布

weixin_43576422

最新推荐文章于 2023-05-25 17:11:03 发布

阅读量381

点赞数

分类专栏：爬虫文章标签： python html

本文链接：https://blog.csdn.net/weixin_43576422/article/details/106864998

版权

本文是一个python3爬虫入门教程，介绍如何下载网页、设置用户代理、ID遍历爬虫以及链接爬虫。通过示例解释了如何处理网页下载中的重试和设置用户代理，以及如何利用ID遍历网站内容。同时提到了requests库在爬虫中的重要性。

摘要由CSDN通过智能技术生成

本文是一个python3爬虫入门教程，需要注意的是你需要有python基础，不过也仅需要掌握简单的用法即可。

前言

网络爬虫被用于许多领域，收集不太容以其他格式获取的信息。

需要注意的是，网络爬虫当你抓取的是现实生活中真实的公共的公共数据，在合理的使用规则下是允许转载的。
相反，如果是原创数据或是隐私数据，通常受到版权显示，而不能转载。请记住，自己应当是网络的访客，应当约束自己的抓取行为，否则会造成不良后果。

我们将从零开始，逐步完善一个高级网络爬虫。.

下载网页

下面的示例脚本使用urllib模块下载url

import urllib.request
def download(url):
	return urllib.request.urlopen(url).read()

当传入url时，该函数将会下载网页并返回其HTML。不过这样不够稳健，因为我们访问网页的时候可能会遇到问题，比如页面不存在。
因此下面给出一个更稳健的版本：

import urllib.request
from urllib.error import URLError,HTTPError,ContentTooShortError
def download(url):
    print('Downloading:')
    try:
        html = urllib.request.urlopen(url).read()
    except (URLError,HTTPError,ContentTooShortError) as e:
        print('download:',e.reason)
        html = None
    return