python爬虫——链接爬虫

柿子镭

于 2021-10-06 16:00:27 发布

阅读量1k

点赞数 4

分类专栏： python爬虫文章标签： python 爬虫正则表达式

本文链接：https://blog.csdn.net/weixin_45890771/article/details/120624517

版权

本文介绍了Python链接爬虫的工作原理，通过跟踪网页链接并使用正则表达式筛选目标内容。在代码实现部分，展示了如何从HTML中提取链接URL，并避免重复下载和可能的死循环。总结了link_crawler函数的主要功能，以及在处理重复链接时的策略。

摘要由CSDN通过智能技术生成

1、原理介绍

2、代码实现

3、总结

4、结果展示

1、原理介绍

跟踪网页中的链接，利用正则表达式只访问感兴趣的内容。其实就是获取起始页面中的所有链接，通过正则表达式过滤出我们感兴趣的链接访问，再新打开的页面中再做同样的事情，从而追踪下去。

通过跟踪每个链接的方式，能够很容易地下载整个网站的页面。但是，这种方法可能会下载很多并不需要的网页。例如，当我们从一个在线论坛抓取用户账号的详细页，那么此时我们只需要下载下载账号页，而不需要下载讨论贴的页面。（本节使用的链接爬虫将使用正则表达式来确定应当下载哪些页面）

2、代码实现

import re
from urllib.parse import urljoin
import urllib.request
from urllib.error import URLError, HTTPError, ContentTooShortError


# 以Chrom为默认代理，默认重试两次的爬取网页封装函数；获取网页指定的解码格式，否则使用默认的'utf-8'格式
def GetData(url, proxy='', retry=2, charset='utf-8'):
    print('download : ' + url)
    if proxy == '':
        proxy = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.